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谢谢 大 家 的 赞助 ， 我 建立 了 一 个 Redis 技 术 交 流 微 信 群 ( 主 群 已 满 ， 有 目前 codis、pika ` tidb 
等 知名 开源 软件 的 作者 ) ， 专 门 交流 Redis 开 发 和 运 维 相关 技术 的 ， 由 于 已 经 超 100 人 ， 想 加 
入 的 请 先 加 我 的 微 信 : gnuhpc。 谢 谢 ! 
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为 了 上 述 Redis 技 术 交 流 群 ， 我 还 创建 了 一 个 知识 星球 ， 您 可 以 使 用 微 信 扫 描 下 列 二 维 码 进 


鹏 程 的 星球 
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微 信 扫 一 扫 加 入 


入 ， 免 费 


长 期 招聘 : 


我 现在 所 在 团队 负责 我 行 全 行 大 数据 基础 架构 平台 和 产品 的 建设 和 维护 工作 ， 待 遇 大 于 等 于 
一 线 互联 网 ， 技 术 实 力 银行 业 大 数据 基础 架构 前 三 名 ， 较 之 同 规模 的 互联 网 团队 也 有 技术 特 
点 。 


坐标 : 北京 市 顺义 区 (公司 有 市 内 多 趟 班车 来 往 ， 开 车 反方 向 无 压力 ， 团 队 棠 尚 任务 驱动 
型 ， 基 本 不 加 班 ) 。 


Introduction 


欢迎 期 待 工作 生活 平衡 又 希望 技术 上 有 所 精进 的 同学 联系 ， 有 意 者 请 发 简历 至 
gnuhpc@foxmail.com 或 加 微 信 gnuhpc， 有 具体 要 求 如 下 : 


ESOS, BA88[ 8188 R PC ERA 


舌 海 量 数 据 存储 和 计算 、 实 时 流 式 计算 和 高 效 任务 调度 等 功能 。 


、 负 责 处 理 大 数据 相关 产品 的 故障 和 缺陷 。 
岗位 职责 、 负 责 大 数据 平台 的 运 维和 性 能 监控 与 调 优 。 
(WEER) 4、 基 于 开源 大 至 据 产 品 增强 符合 行内 需要 有 关 功 能 ， 包 括 核心 功能 和 一 些 管理 


、 负 责 大 数据 平台 的 生产 维护 和 应 急 处 理 。 
、 负 责 大 数据 技术 生产 的 各 种 标准 和 规则 的 制定 及 实施 。 
、 负 责 研 究 与 推广 大 数据 相关 技术 。 





1 、 计 算 机 等 相关 专业 ， 本 科 及 以 上 学 历 ， 两 年 以 上 相关 技术 领域 工作 经 验 ; 
、 可 以 元 练 使 用 Java/Scala/python 编 程 语言 的 一 种 ， 熟 练 Java 分 布 式 开 发 者 


先 。 
、 有 具有 大 数据 领域 相关 研究 背景 ， 对 Hadoop 、Spa 水 、 分 布 式 系统 、 实 时 流 计 
fi Spark Streaming/Storm 等 技术 种 的 一 个 或 多 个 有 较 深 的 理解 ， 融 悉 Hadoopy 
park 生 态 系 统 各 功能 组 件 、 熟 悉 源 码 者 优先 。 对 熟练 党 所 主流 实时 流 计 算数 据 
任职 资格 ”| 采集 、 分 析 处 理 架 构 的 优先 。 
4 、 具 备 快速 学 习 党 握 新 知识 的 能 力 ,优秀 的 分 析 、 解 决 问题 能 力 ; 具备 良好 的 
抽象 归纳 能 力 和 创新 能 力 ; 
5、 有 强烈 的 责任 感 ， 主 动 性 强 ， 团 队 协 作 和 沟通 能 力 强 。 
6、 身 体 健康 ， 较 强 的 自我 计划 和 实施 执行 的 能 力 ， 激 励 、 沟 通 、 协 调 能 力 A 
苗 良 好 的 职业 探 守 和 强烈 的 责任 心 。 
、 熟 悉 开 源 社区 的 使 用 和 参与 ， 并 在 开源 社区 有 贡献 者 优先 。 


赞助 名 单 (由 于 微 信 面对面 收 钱 无 法 显示 ， 停 止 更 
新 ) 
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微 信 二 维 码 : 


微 信 扫 一 扫 转 账 





支付 宝 二 维 码 : 


Introduction 


A. xe 
ZEE :北京 v. 


用 支付 宝 扫 二 维 码 ， 加 我 好 友 





Redis 为 一 个 运行 在 内 存 中 的 数据 结构 服务 器 (data structures server) 。Redis 使 用 的 是 单 进 
f ( 除 持久 化 时 ) ， 所 以 在 配置 时 ， 一 个 实例 只 会 用 到 一 个 CPU。 本 手册 分 为 三 部 分 ， 第 一 


部 分 从 开发 角度 介绍 了 redis 开 发 中 使 用 API、 场 景 和 生产 设计 规范 最 佳 实践 ， 第 二 部 分 从 运 维 
角度 介绍 了 如 何 运 维 redis， 其 间 的 常见 操作 和 最 佳 实践 等 ,第 三 部 分 是 从 高 可 用 和 集群 方面 介 


x 2| Aa 


绍 了 redis 相 关 的 集群 架构 、 搭 建 和 测试 。 


2. 数据 操作 


熟悉 每 个 数据 操作 前 一 定 要 明白 每 个 操作 都 是 代价 ， 以 时 间 复 杂 度 和 对 应 查询 集 或 者 结果 集 
大 小 为 衡量 。 时 间 复 杂 度 收敛 状况 如 下 : 
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2.1. key 操 作 


redis 的 key 操 作 是 涉及 范围 最 广 的 操作 o 


列 出 key 


2.1.1 列 出 key 


keys *user* 
keys * 


有 3 个 通配符 *,? 省 


e * 通 配 任意 多 个 字符 
。 ?: 通 配 单个 字符 
e [| 通 配 括号 内 的 某 1 个 字符 


注 : 生产 已 经 禁止 。 更 安全 的 做 法 是 采用 scan， 原 理 和 操作 如 下 


渐进 地 还 历 整 个 数据 库 


AA KEYS 命令 会 一 次 性 地 逼 历 整个 数据 库 来 获取 所 有 与 给 定 模式 相 匹配 的 键 , 所 以 随 着 数据 库 包 含 
的 键 值 对 越 来 越 多 ， 这 个 命令 的 执行 速度 也 会 越 来 越 慢 , 而 对 一 个 非常 大 的 数据 库 ( 比 如 包含 几 千 万 个 
键 值 对 、 几 亿 个 键 值 对 ) 执 行 KEYS 命令 , 将 导致 服务 器 被 阻塞 一 段 时 间 。 


4, 这 个 命令 可 以 以 渐进 的 方式 , 7S 268 


m p 


ChinaHadoop.cn 


为 了 解决 这 个 问题 , Redis 从 2.8.0 版 本 开始 提供 SCAN 命 
历 整个 数据 库 , 并 返回 匹配 给 定 模式 的 键 。 


N 
SCAN 
KEYS SCAN 
SCAN 


页 查询 Key。 在 迭代 过 程 中 ，Keys 有 增删 时 不 会 要 锁 
条 key 可 能 会 被 返回 多 次 . 





针对 Keys 的 改进 ， 支 持 分 页 
作 ， 数 据 集 完整 度 不 做 任何 保证 ， 同 一 


历 整个 数据 库 的 总 复杂 度 为 O 
(N), N 为 数据 库 包含 的 键 值 对 


m 
Bo 





对 于 其 他 危险 的 命令 ， 新 版 本 也 进行 了 替代 : 


其 他 渐进 还 历 命令 


SSCAN key cursor [MATCH pattern] [COUNT count] 

代替 可 能 会 阻塞 服务 器 的 SMEMBERS MT, 3875 & RET. 
ee key cursor [MATCH pattern] [COUNT count] 

代替 可 能 会 阻塞 服务 器 的 HGETALL 命令 , 通 历 散 列 包 含 的 各 个 键 值 对 。 
ZSCAN key cursor [MATCH pattern] [COUNT count] 

代替 可 能 会 阻塞 服 务 器 的 ZRANGE MR, 带 历 有 序 集 合 包含 的 各 个 元 素 。 
这 些 命令 的 MATCH 选项 和 COUNT 选项 的 意义 和 SCAN 命令 的 一 样 。 

redis-cli 下 的 扫描 : 


redis-cli --scan --pattern 'chenqun *' 


这 是 用 Scan 命令 扫描 redis 中 的 key，--pattern 选 项 指定 扫描 的 key 的 pattern。 相 比 keys pattern 
模式 ,不 会 长 时 间 阻 塞 redis 而 导致 其 他 客户 端的 命令 请 求 一 直 处 于 阻塞 状态 。 


本 页 中 采用 了 小 象 学院 的 两 张 片子 ， 版 权 归 http://www.chinahadoop.cn/ 所 有 


2.1.2 测试 指定 key 是 否 存 在 


返回 1 表示 存在 ，0 不 存在 


2.1.3 删除 给 定 key 


del key1 key2 ....keyN 


返回 1 表示 存在 ，0 不 存在 


2.1.4 iK 9l 25 X key f] value X 7 
type key 


返回 none 表示 不 存在 key。string 字 符 类 型 ，list 链表 类 型 set 无 序 集合 类 型 ... 


2.1.5 返回 从 当前 数据 库 中 随机 选择 的 一 个 key 


如 果 当 前 数据 库 是 空 的 ， 返 回 空 串 


2.1.6 原子 的 重 命名 一 个 key 


rename oldkey newkey 


如 果 newkey 存 在 ， 将 会 被 覆盖 ， 返 回 1 表示 成 功 ，0 失 败 。 可 能 是 oldkey 不 存在 或 者 和 newkey 
相同 


renamenx oldkey newkey 


同上 ， 但 是 如 果 newkey 存 在 返回 失败 


2.1.7 Key 的 超时 设置 处 理 


expire key seconds 


单位 是 秒 。 返 回 1 成 功 ，0 表 示 key 已 经 设置 过 过 期 时 间或 者 不 存在 。 如果 想 消除 超时 则 使 用 
persist key。 如 果 希 望 采用 绝对 超时 ， 则 使 用 expireat 命 令 。 


ttl key 


返回 设置 过 过 期 时 间 的 key 的 剩余 过 期 秒 数 -1 表示 没有 设置 过 过 期 时 间 ， 对 于 不 存在 的 key, 返 
回 -2 。 


pexpire key 毫秒 数 


设置 生命 周期 。 


pttl key 


VA 回 生命 周期 。 


注意 : 
当 client 主 动 访问 key 会 先 对 key 进 行 超时 判断 ， 过 时 的 key 会 立刻 删除 。 


如 果 clien 永 远 都 不 再 get 那 条 key 呢 ? 它 会 在 Master 的 后 台 ， 每 秒 10 次 的 执行 如 下 操作 : 
随机 选取 100 个 key 校 验 是 否 过 期 ， a Be (e SN ， 立刻 额外 随机 选取 下 
100 个 key( 不 计算 在 10 次 之 内 )。 可 见 ， 如 果 过 期 的 key 不 多 ， 它 最 多 每 秒 回收 200 条 左 
右 ， 如 果 有 超过 25% 的 key 过 期 了 ， 它 就 会 做 得 更 多 ， 但 只 要 key 不 被 主动 get， 它 占用 的 
内 存 什么 时 候 最 终 被 清理 掉 只 有 天 知道 。 





E 环境 中 ， 由 于 上 述 原 因 存 在 已 经 过 期 但 是 没有 删除 的 key， 在 主 snapshot 时 并 
不 包含 这 些 key， 因 此 在 slave 环 境 中 我 们 往往 看 到 dbsize 较 master 是 更 小 的 。 
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Key 的 超时 设置 处 理 
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最 大 字符 串 为 512M， 但 是 大 字符 串 非 常 不 建议 。 


Æ% 


2.2.1 4X E key 1 & 4 4à 7] string X #! $7 value 


set key value [ex #3] / [px 毫秒 数 ] [nx] /[xx] 


返回 1 表示 成 功 ，0 失 败 


ik: 如 果 ex,pX 同 时 写 ,以 后 面 的 有 效 期 为 准 


setnx key value 


仅 当 key 不 存在 时 才 Set， 如 果 key 已 经 存在 ， 返 回 0 。nx X not exist 的 意思 。 


应 用 场景 : 用 来 选举 Master 或 做 分 布 式 锁 : 所 有 Client 不 断 尝试 使 用 SetNx master 
myName 抢 注 Master， 成 功 的 那 位 不 断 使 用 Expire 刷 新 它 的 过 期 时 间 。 如 果 Master 倒 看 
了 key 就 会 失效 ， 剩 下 的 节点 又 会 发 生 新 一 轮 抢 夺 。 


mset key1 valuei ... keyN valueN 


一 次 设置 多 个 key 的 值 ， 成 功 返 回 1 表 示 所 有 的 值 都 设置 了 ， 失 败 返 回 0 表示 没有 任何 值 被 设置 


msetnx key1 value1 ... keyN valueN 


同上 ， 但 是 不 会 覆盖 已 经 存在 的 key 


SET 命令 还 支持 可 选 的 NX 选项 和 XX 选项 ， 例 如 : SET nx-str "this will fail" XX 


e 如 果 给 定 了 NX 选项 ， 那 么 命令 仅 在 键 key 不 存在 的 情况 下 ， 才 进行 设置 操作 ; 如 果 键 
key 已 经 存在 ， 那 么 SET ... NX 命令 不 做 动作 (不 会 覆盖 加 值 ) © 

e 如 果 给 定 了 XX 选项 ， 那 么 命令 仅 在 键 key 已 经 存在 的 情况 下 ， 才 进行 设置 操作 ; 如 果 
键 key 不 存在 ， 那 么 SET ... XX 命令 不 做 动作 (一 定 会 覆盖 旧 值 ) 。 在 给 定 NX 选项 和 
XX 选项 的 情况 下 ，SET 命令 在 设置 成 功 时 返回 OK ， 设 置 失败 时 返回 nil © 


设置 Key 对 应 的 值 为 string 类 型 的 value 
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2.2.2 获取 key 对 应 的 String 值 


get key 


如 果 key 不 存在 返回 nil 


getset key value 


原子 的 设置 key 的 值 ， 并 返回 key 的 日 值 。 如 果 Kkey 不 存在 返回 nil。 应 用 场景 : 设置 新 值 ， 返 回 
日 值 ， 配 合 setnx 可 实现 分 布 式 锁 。 


分 布 式 锁 的 思路 : 注意 该 思路 要 保证 多 台 Client 服 务 器 的 NTP 一 致 。 


C3 发 送 SETNX lock.foo 想 要 获得 锁 ， 由 于 C0 还 持 有 和 锁 ， 所 以 Redis 返 回 给 C3 一 个 0 
C3 发 送 GET lock.foo 以 检查 锁 是 否 超时 了 ， 如 果 没 超时 ， 则 等 待 或 重 试 。 

反之 ， 如 果 已 超时 ，C3 通 过 下 面 的 操作 来 尝试 获得 锁 : 

GETSET lock.foo 

通过 GETSET ，C3 拿 到 的 时 间 戳 如果 仍 然 是 超时 的 ， 那 就 说 明 ，C3 如 愿 以 偿 拿 到 锁 了 。 
如 果 在 C3 之 前 ， 有 个 叫 C4 的 客户 端 比 C3 快 一 步 执行 了 上 面 的 操作 ， 那 么 C3 拿 到 的 时 间 
惟 是 个 未 超时 的 值 ， 这 时 ，C3 没 有 如 期 获得 锁 ， 需 要 再 次 等 待 或 重 试 。 留 意 一 下 ， 尽 管 
C3 没 拿 到 锁 ， 但 它 改写 了 C4 设 置 的 锁 的 超时 值 ， 不 过 这 一 点 非常 微小 的 误差 带 来 的 影响 
可 以 忽略 不 计 。 


oak WN > 


f ANE X: 


# get lock 
lock - 0 
while lock !- 1: 
timestamp = current Unix time + lock timeout + 1 
lock = SETNX lock.foo timestamp 
if lock -- 1 or (now() » (GET lock.foo) and now() » (GETSET lock.foo timestamp)): 
break; 
else: 
sleep(10ms) 


# do your job 
do job() 


# release 


if now() « GET lock.foo: 
DEL lock.foo 


以 上 是 一 个 单 Server 的 分 布 式 锁 思 路 ， 官 网 上 还 介绍 了 另 一 个 单机 使 用 超时 方式 进行 的 思 
路 ， 和 这 个 基本 一 致 ， 并 且 在 同一 个 文档 中 介绍 了 一 个 名 为 redlock 的 多 Server 容 错 型 分 布 式 
锁 的 暮 法 ， 同 时 列 出 了 多 语言 的 实现 。 这 个 算法 的 优势 在 于 几 个 服务 器 可 以 有 少量 的 时 间 
差 ， 不 要 求 严格 时 间 一 致 。 


也 可 以 设计 一 个 按 小 时 计算 的 计数 器 ， 可 以 用 GetSet 获 取 计 数 并 重 置 为 0。 


mget key1 key2 ... keyN 


一 次 获取 多 个 key 的 值 ， 如 果 对 应 key 不 存在 ， 则 对 应 返回 nil 


Incr key 


对 key 的 值 做 加 加 操作 ,并 返回 新 的 值 。 注 意 incr 一 个 不 是 int 的 value 会 返回 错误 ，incr 一 个 不 存 
在 的 key， 则 设置 key 为 1。 范 围 为 64 有 符 
号 ，-9223372036854775808~9223372036854775807 ° 


decr key 


同上 ， 但 是 做 的 是 减 减 操作 ，decr 一 个 不 存在 key， 则 设置 Key 为 -1 


incrby key integer 


同 incr， 加 指定 值 ，key 不 存在 时 候 会 设置 key， 并 认为 原来 的 value 是 0 


decrby key integer 
同 decr， 减 指定 值 。decrby 完 全 是 为 了 可 读 性 ， 我 们 完全 可 以 通过 incrby 一 个 负 值 来 实现 同样 


效果 ， 反 之 一 样 。 


incrbyfloat key floatnumber 


针对 浮 点 数 


浮 点 数 的 自 增 和 自 减 Eu: 


China 


INCRBYFLOAT key increment 

为 字符 串 键 key 储存 的 值 加 上 浮 点 数 增 量 increment, 命令 返回 操作 执行 之 后 , 键 key 的 值 。 
没有 相应 的 DECRBYFLOAT , 但 可 以 通过 给 定 负 值 来 达到 DECRBYFLOAT 的 效果 。 

复杂 度 为 O(1) 。 


redis> SET num 10 

OK 

redis> INCRBYFLOAT num 3.14 
"13.14" 


redis» INCRBYFLOAT num -2.04  # 通过 传递 负 值 来 达到 做 减法 的 效果 
gi s ha 


哪些 可 以 被 操作 呢 ? 





14 值 可 以 被 解释 为 浮 点 数 


ABC 





这 个 操作 的 应 用 场景 : 计数 器 


2.2.4 追加 字符 串 


append key value 


返回 新 字符 串 值 的 长 度 。 


2.2.5 RRS HB 


substr key start end 


返回 截取 过 的 key 的 字符 串 值 ,注意 并 不 修改 Key 的 值 。 下 标 是 从 0 开始 的 


2.2.6 改写 字符 串 


SETRANGE key offset value 


Fl value 4 # 5 (overwrite)? x: key 所 储存 的 字符 串 值 ， 从 偏 移 量 offset 开始 。 不 存在 的 key 
当 作 空 白字 符 串 处 理 。 可 以 用 作 append : 
127.8.8.1:6379» set foo bar 


OK 
127.8.8.1:6379» setrange foo 3 barla 


(integer) 8 
127.8.80.1:6379» get foo 
"barbarla" 








127.8.80.1:6379» 

OK 
127.8.8.1:6379» setrange foo 3 a 
(integer) 4 

127.8.8.1:6379» get foo 

"bara" 

127.8.8.1:6379» setrange foo 6 a 


set foo bar 





(integer) ? 
127.8.80.1:6379» get foo 
"baraNxBB*x8Ba " 


127.8.8.1:6379» 


2.2.7 RAS FHS 


GETRANGE key start end 

返回 key 中 字符 串 值 的 子 字符 串 ， 字 符 串 的 截取 范围 由 start 和 end 两 个 偏 移 量 决定 (包括 start 
和 end 在 内 )。 可 以 使 用 负 值 ， 字 符 串 右面 下 标 是 从 -1 开始 的 。 

注意 返回 值 处 理 : 


1: start>=length, 则 返回 空 字 符 串 2: stop>=length, 则 截取 至 字符 结尾 3: 如 果 start 所 处 位 置 在 
stopt ù, RIS FHF 


中 文字 符 串 处 理 


$ redis-cli -raw #4 redis-cli 中 使 用 中 文 时 , 必须 打开 --raw 选项 , 才能 正常 显示 中 文 


redis» SET msg "世界 你 好 ” # 设置 四 个 中 文字 符 
OK 


redis» GET msg # 储存 中 文 没有 问题 
世界 你 好 


redis» STRLEN msg # 这 里 STRLEN 显示 了 “世界 你 好 ”的 字 节 长 度 为 12 字 节 
12 # 但 我 们 真正 想 知道 的 是 msg 键 里 面包 含 多 少 个 字符 
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2.2.9 取 指 定 key 的 value 值 的 长 度 


strlen 


位 操作 


2.2.10 位 操作 


注意 : 位 操作 中 的 位 置 是 反 过 来 的 ，offset 过 大 , 则 会 在 中 间 填 充 0， 比 如 SETBIT bit 0 1 * 此 
时 bit 为 10000000， 此 时 再 进行 SETBIT bit 7 1， 此 时 bit 为 10000001。offset 最 大 2^32-1 。 


二 进 制 位 的 索引 E ng es 
和 储存 文字 时 一 样 , 字符 捉 键 在 储存 二 进 制 位 时 , 索引 也 是 从 0 开始 的 。 


但 是 和 储存 文字 时 , 索引 从 左 到 右 依 次 递增 不 同 , 当 字 符 串 键 储存 的 是 二 进 制 位 时 , 二 进 制 位 的 索引 会 
从 左 到 右 依次 递减 。 





字符 串 索 引 二 进 制 索引 A 
~/ 
GETBIT key offset / SETBIT key offset value 
设置 某 个 索引 的 位 为 0/1 
bitcount 


对 位 进行 统计 





计算 值 为 1 的 二 进 制 位 的 数量 LE ues 


BITCOUNT key [start] [end] 
计算 并 返回 字符 串 键 储存 的 值 中 , 被 设置 为 1 的 二 进 制 位 的 数量 。 


一 般 情况 下 , 给 定 的 整个 字符 串 键 都 会 进行 计数 操作 , 但 通过 指定 额外 的 start 或 end 参数 , 可 以 让 计 
数 只 在 特定 索引 范围 的 位 上 进行 。 


start 和 end 参数 的 设置 和 GETRANGE 命令 类 似 , 都 可 以 使 用 负数 值 :比如 -1 表示 最 后 一 个 位 , 而 -2 
表示 倒数 第 二 个 位 , 以 此 类 推 。 


复杂 度 为 O(N) , RAN 为 被 计算 二 进 制 位 的 数量 。 
A 
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bitop 


对 1 个 或 多 个 key 对 应 的 值 进行 AND/OR/XOR/NOT 操 作 
注意 : 


1.bitop 操 作 人 避免 阻塞 应 尽量 移 到 slave 上 操作 . 2. 对 于 NOT 操 作 , key 不 能 多 个 
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列表 操作 
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2.3.1 添加 元 素 


lpush key string 
在 key 对 应 list 的 头 部 添加 字符 串 元 素 ， 返 回 1 表 示 成 功 ，0 表 示 key 存 在 且 不 是 list 类 型 。 注 意 : 
江湖 规矩 一 般 从 左 端 Push， 右 端 Pop， 即 LPush/RPop。 

lpushx 
也 是 将 一 个 或 者 多 个 value 揪 入 到 key 列 表 的 表 头 ， 但 是 如 果 key 不 存在 ， 那 么 就 什么 都 不 在 ， 


返回 一 个 false 【rpushx 也 是 同样 】 


rpush key string 


同上 ， 在 尾部 添加 


linsert 


在 key 对 应 list 的 特定 位 置 之 前 或 之 后 添加 字符 串 元 素 ,例如 


redis 127.0.0.1:63791insert mylist3 before "world" "there" 


2.3.2 查看 列表 长 度 


llen key 


返回 key 对 应 list 的 长 度 ，key 不 存在 返回 0, 如 果 key 对 应 类 型 不 是 list 返 回 错误 


2.3.3 查看 元 素 


lindex 


返回 名 称 为 key 的 list 中 index 位 置 的 元 素 ， 例 如 : 


redis 127.0.0.1:6379> lindex mylist5 0 


2.3.4 查看 一 段 列 表 


lrange key start end 


返回 指定 区 间 内 的 元 素 ， 下 标 从 0 开始 ， 负 值 表示 从 后 面 计算 ，-1 表 示 倒 数 第 一 个 元 素 ，key 
不 存在 返回 空 列 表 。 特 殊 的 ， 


lrange key 0 -1 


返回 所 有 数据 。 


2.3.5 截取 list 


ltrim key start end 


保留 指定 区 间 内 元 素 ， 成 功 返回 1，key 不 存在 返回 错误 。O(N) 操 作 。 


注意 : N 是 被 移 除 的 元 素 的 个 数 ， 不 是 列表 长 度 。 


2.3.6 删除 元 素 


lrem key count value 


从 key 对 应 list 中 删除 count 个 和 value 相 同 的 元 素 。count 为 0 时候 删除 全 部 ，count 为 正 ， 则 删 
除 匹配 count 个 元 素 ， 如 果 为 负数 ， 则 是 从 右 侧 扫 描 删 除 匹 配 count 个 元 素 。 复 杂 度 是 O(N)，NN 
是 List 长 度 ， 因 为 List 的 值 不 唯一 ， 所 以 要 遍历 全 部 元 素 ， 而 Set 只 要 O(log(N))。 


lpop key 
从 list 的 头 部 删除 元 素 ， 并 返回 删除 元 素 。 如 果 Kkey 对 应 list 不 存在 或 者 是 空 返回 nil， 如 果 key 对 
应 值 不 是 list 返 回 错误 。 

rpop 


同上 ， 但 是 从 尾部 删除 。 


2.3.7 设置 list 中 指定 下 标的 元 素 值 


lset key index value 


成 功 返 回 1，Kkey 或 者 下 标 不 存在 返回 错误 


2.3.8 LEK 


blpop key1...keyN timeout 


从 左 到 右 扫描 返回 对 第 一 个 非 空 list 进 行 |pop 操 作 并 返回 ， 比 如 blpop list1 list2 list3 0 ,4« list 
不 存在 list2,list3 都 是 非 空 则 对 list2 做 |pop 并 返回 从 list2 中 删除 的 元 素 。 如 果 所 有 的 list 都 是 空 或 
不 存在 ， 则 会 阻塞 timeout 秒 ，timeout 为 0 表示 一 直 阻 塞 。 当 阻塞 时 ， 如 果 有 client 对 
key1...keyN 中 的 任意 key 进 行 pbuUsh 操 作 ， 则 第 一 在 这 个 key 上 被 阻塞 的 client 会 立即 返回 (返回 
键 和 值 ) 。 如 果 超 时 发 生 ， 则 返回 nil。 有 点 像 unix 的 select 或 者 poll 。 


brpop 


同 blpop， 一 个 是 从 头 部 删除 一 个 是 从 尾部 删除 。 
: 不 要 采用 其 作为 ajax 的 服务 端 推送 ， 因 为 连接 有 限 ， 遇 到 问题 连接 直接 打 满 。 


BLPOP/BRPOP 的 先 到 先 服务 原则 如 果 有 多 个 客户 端 同时 因为 某 个 列表 而 被 阻塞 ， 那 么 当 有 
新 值 被 推 入 到 这 个 列表 时 ， 服 务 器 会 按照 先 到 先 服务 (first in first service) 原则 ， iiia 
早 被 阻塞 的 客户 端 返回 新 值 。 举 个 例子 ， 假 设 列 表 Ist 为 室 ， 那 么 当 客 户 端 X 执行 命 

BLPOP Ist timeout 时 ， 客 户 端 X 将 被 阻塞 。 在 此 之 后 ， 客 户 端 Y 也 执行 命令 BLPOP Ist 
timeout ， 也 因此 被 阻塞 。 如 果 这 p > 客户 端 Z 执行 命令 RPUSH Ist "hello" ， 将 值 "hello" 4& 
入 列表 Ist > MAR "hello" 将 被 返回 给 客户 端 X， 而 不 是 客户 端 Y， 因 为 客户 端 X 的 被 阻 
Aa een Gtes 


rpoplpush/brpoplpush : rpoplpush srckey destkey e list 的 尾部 移 除 元 素 并 添加 到 
destkey 对 应 list 的 最 后 返回 被 移 除 的 元 素 值 ， 整个 操作 是 原子 的 .如 果 srckey 是 空 或 者 不 
存在 返回 nil， 注 意 这 是 唯一 一 个 操作 两 个 列表 的 操作 ， 用 于 两 个 队列 交换 消息 。 


应 用 场景 : task + bak 双 链 表 完 成 工作 任务 转交 的 安全 队列 ， 保 证 原子 性 。 业务 逻辑 : 1: 
Rpoplpush task bak 2: 接收 返回 值 ,并 做 业务 处 理 3: 完成 时 用 LREM 消 掉 。 如 不 成 功 或 者 如 果 
集群 管理 (如 zookeeper) 发 现 worker 已 经 挂 掉 ,下 次 从 bak 表 里 取 任 务 


另 一 个 应 用 场景 是 循环 链表 : 127.0.0.1:6379> Irange list 0 -1 1) "c" 2) "b" 3) "a" 
127.0.0.1:6379> rpoplpush list list "a" 127.0.0.1:6379> Irange list 0 -1 1) "a" 2) "c" 3) "p" 


集合 操作 
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2.4.1 添加 元 素 


sadd key member 


成 功 返 回 1, 如 果 元 素 以 及 在 集合 中 返回 0,key 对 应 的 set 不 存在 返回 错误 


2.4.2 移 除 元 素 


Srem key member 


成 功 返 回 1， 如 果 member 在 集合 中 不 存在 或 者 key 不 存在 返回 0， 如 果 key 对 应 的 不 是 set 类 型 
的 值 返 回 错误 


2.4.3 删除 并 返回 元 素 


Spop key 


如 果 set 是 空 或 者 Key 不 存在 返回 nil 


2.4.4 随机 返回 一 个 元 素 


srandmember key 


同 spop， 随 机 取 set 中 的 一 个 元 素 ， 但 是 不 删除 元 素 


2.4.5 集合 间 移 动 元 素 
Smove Srckey dstkey member 


从 srckey 对 应 set 中 移 除 member 并 添加 到 dstkey 对 应 set 中 ， 整 个 操作 是 原子 的 。 成 功 返 回 1， 
如 果 member 在 srckey 中 不 存在 返回 0， 如 果 key 不 是 set 类 型 返回 错误 


2.4.6 查看 集合 大 小 


scard key 


如 果 set 是 空 或 者 key 不 存在 返回 0 


2.4.7 判断 member 是 否 在 set 中 


sismember key member 


存在 返回 1，0 表 示 不 存在 或 者 key 不 存在 


2.4.8 集合 交集 
sinter key1 key2...keyN 


返回 所 有 给 定 key 的 交集 


sinterstore dstkey key1...keyN 


同 sinter， 但 是 会 同时 将 交集 存 到 dstkey 下 


2.4.9 集合 并 集 


sunion key1 key2...keyN 


返回 所 有 给 定 key 的 并 集 


sunionstore dstkey key1...keyN 


Isl sunion , 3 FF] 时 保存 并 集 到 dstkey 下 


2.4.10 & x 


sdiff key1 key2...keyN 


返回 所 有 给 定 key 的 差 集 


sdiffstore dstkey key1...keyN 


同 sdiff， 并 同时 保存 差 集 到 dstkey 下 


2.4.11 获取 所 有 元 素 


smembers key 


返回 key 对 应 Set 的 所 有 元 素 ， 结 果 是 无 序 的 ， 集 


合 


元 


素 很 多 时 


Sorted Set 的 实现 是 hash table(element->score, 用 于 实现 ZScore 及 判断 element 是 否 在 集合 
内 )， 和 skip list(score->element, 按 score 排 序 ) 的 混合 体 。 skip list 有 点 像 平衡 二 又 树 那 样 ， 不 
同 范围 的 Score 被 分 成 一 层 一 层 ， 每 层 是 一 个 按 score 排 序 的 链表 。 


ZAdd/ZRem € O(log(N)) > ZRangeByScore/ZRemRangeByScore € O(log(N)*M) > NXESet X 
小 ，M 是 结果 /操作 元 素 的 个 数 。 可 见 ， 原 本 可 能 很 大 的 N 被 很 关键 的 Log 了 一 下 ，1000 万 大 小 
的 Set， 复 杂 度 也 只 是 几 十 不 到 。 当 然 ， 如 果 一 次 命中 很 多 元 素 M 很 大 那 谁 也 没 办 法 了 。 


2.5.1 添加 元 素 


zadd key score member 


添加 元 素 到 集合 ， 元 素 在 集合 中 存在 则 更 新 对 应 Score。 


2.5.2 删除 元 素 


zrem key member 


1 表示 成 功 ， 如 果 元 素 不 存在 返回 0 


zremrangebyrank key min max 


删除 集合 中 排名 在 给 定 区 间 的 元 素 


zremrangebyscore key min max 


删除 集合 中 score 在 给 定 区 间 的 元 素 


2.5.3 增加 score 


zincrby key incr member 


增加 对 应 member 的 score 值 ， 然 后 移动 元 素 并 保持 skip list 保 持 有 序 。 返 回 更 新 后 的 Score 值 ， 
可 以 为 负数 递减 


2.5.4 获取 排名 


zrank key member 


返回 指定 元 素 在 集合 中 的 排名 (下 标 ， 注 意 不 是 分 数 ) ,集合 中 元 素 是 按 score 从 小 到 大 排序 的 


zrevrank key member 


同上 ,但 是 集合 中 元 素 是 按 Score 从 大 到 小 排序 


2.5.5 获取 排行 榜 


类 似 Irange 操 作 从 集合 中 去 指定 区 间 的 元 素 。 返 回 的 是 有 序 结果 


zrevrange key start end 同上 ， 返 回 结果 是 按 Score 逆 序 的 ,如 果 需 要 得 分 则 加 上 withscores 


注 : index 从 start 到 end 的 所 有 元 素 


2.5.6 返回 给 定 分 数 区 间 的 元 素 
zrangebyscore key min max 


可 以 指定 in{ 为 无 穷 


2.5.7 返回 集合 中 Score 在 给 定 区 间 的 数量 


zcount key min max 


2.5.8 返回 集合 中 元 素 个 数 


zcard key 


2.5.9 返回 给 定 元 素 对 应 的 Score 


zscore key element 


2.5.10 评分 的 


ZUNIONSTORE destination numkeys key [key 


例如 : 


HX 
JR 


合 


...] [WEIGHTS weight] [AGGREGATE SUM|MIN|MAX] 


127.0.0.1:6379» zrangebyscore votes -inf inf withscores 


127.0.0.1:6379» zrangebyscore visits -inf inf withscores 


1) "sina" 
2) uyn 

3) "google" 
4) "np" 

5) "baidu" 
6) "10" 

1) "baidu" 
2) sg Beed 

3) "google" 
4) "np" 

5) "sina" 
6) "46" 


127.0.0.1:6379> zunionstore award 2 visits votes weights 1 2 aggregate sum 


(integer) 3 


127.0.0.1:6379» zrangebyscore award -inf inf withscores 


1) "sina" 
2) eM 

3) "google" 
4) "45" 

5) "baidu" 
6) Wale 


一 个 小 技巧 是 如 果 需 要 对 评分 进行 倍加 ， 则 使 用 如 下 的 方法 : 


127.0.0.1:6379»zrangebyscore visits -inf inf withscores 


1) 
2) 
3) 
4) 
5) 
6) 


"baidu" 
"q" 
"google" 
"pn 
"sina" 
"40" 


127.0.0.1:6379>zunionstore visits 1 visits weights 2 


(integer) 3 


127.0.0.1:6379>zrangebyscore visits -inf inf withscores 


1) 
2) 
3) 
A) 
5) 
6) 


"baidu" 
"2n 
"google" 
"40" 
"sina" 
"2g" 


底层 实现 是 hash table， 一 般 操 作 复 杂 度 是 O(1)， 要 同时 操作 多 个 field 时 就 是 O(N)，N 是 field 
的 数量 。 应 用 场景 : 土 法 建 索引 。 比 如 User 对 象 ， 除 了 id 有 时 还 要 校 name 来 查询 。 


可 以 有 如 下 的 数据 记录 : (String) user:101 -> {"id":101,"name":"calvin"...} (String) user:102 -> 
{"id":102,"name":"kevin"...} (Hash) user:name:index-> "calvin"->101, "kevin" -> 102 


2.6.1 设置 hash 值 


hset key field value 


设置 hash field 为 指定 值 ， 如 果 key 不 存在 ， 则 先 创 建 。 


hsetnx 


设置 hash field 为 指定 值 ， 如 果 key 不 存在 ， 则 先 创 建 。 如 果 field 已 经 存在 ， 返 回 0，nx 是 not 
exist 的 意思 。 


2.6.2 获取 hash 值 


hget key field 
获取 指定 的 hash field 
hmget key filed1....fieldN 


获取 全 部 指定 的 hash filed 


hmset key filed1 value1 ... filedN valueN 


同时 设置 hash 的 多 个 field 


2.6.3 35$ 3$ X: — ^ 33,85] fü 


hincrby key field integer 


将 指定 的 hash filed 加 上 给 定 值 


2.6.4 判断 某 一 个 域 是 否 存 在 


hexists key field 


测试 指定 field 是 否 存 在 


2.6.5 删除 域 


hdel key field 


删除 指定 的 hash field 


2.6.6 获取 域 的 数量 


返回 指定 hash 的 field 数 量 


2.6.7 获取 所 有 的 域名 


hkeys key 


返回 hash 的 所 有 field 


2.6.8 获取 所 有 域 的 值 


hvals key 


返回 hash 的 所 有 value 


2.6.9 获取 所 有 域名 和 值 


hgetall 


返回 hash 的 所 有 filed 和 value 


2.7 HyperLogLog 操 作 


HyperLogLog 主 要 解决 大 数据 应 用 中 的 非 精 确 计数 (可 能 多 也 可 能 少 ， 但 是 会 在 一 个 合理 的 
范围 ) 操作 ， 它 可 以 接受 多 个 元 素 作为 输入 ， 并 给 出 输入 元 素 的 基数 估算 值 ， 基 数 指 的 是 集 
合 中 不 同 元 素 的 数量 。 比 如 fapple', banana’, 'cherry', 'banana', 'apple') 的 基数 就 是 3。 
HyperLogLog 的 优点 是 ， 即 使 输入 元 素 的 数量 或 者 体积 非常 非常 大 ， 计 算 基 数 所 需 的 空间 总 
是 固定 的 、 并 且 是 很 小 的 。 在 Redis 里 面 ， 每 个 HyperLogLog 键 只 需要 花费 12 KB AË? 
就 可 以 计算 接近 2^64 个 不 同 元 素 的 基数 。 这 和 计算 基数 时 ， 元 素 越 多 耗费 内 存 就 越 多 的 集合 
形成 鲜明 对 比 。 但 是 ， 因 为 HyperLogLog 只 会 根据 输入 元 素来 计算 基数 ， 而 不 会 储存 输入 元 
素 本 身 ， 所 以 HyperLogLog 不 能 像 集合 那样 ， 返 回 输入 的 各 个 元 素 。 


关于 这 个 数据 类 型 的 误差 : 在 一 个 大 小 为 12k 的 key 所 存储 的 hyperloglog 集 合 基数 计算 的 误差 
是 %0.81. 


参考 文献 : http://highscalability.com/blog/2012/4/5/big-data-counting-how-to-count-a-billion- 
distinct-objects-us.html 


2.7.1 将 元 素 添加 至 HyperLogLog 


PFADD key element [element ...] 


这 个 命令 可 能 会 对 HyperLogLog 进行 修改 ， 以 便 反映 新 的 基数 估算 值 ， 如 果 HyperLogLog 
的 基数 估算 值 在 命令 执行 之 后 出 现 了 变化 ， 那 么 命令 返回 1 ， 否则 返回 0 。 命令 的 复杂 度 
A O(N) ，N 为 被 添加 元 素 的 数量 。 


2.7.2 返回 给 定 HyperLogLog 的 基数 估算 值 


PFCOUNT key [key ...] 


当 只 给 定 一 个 HyperLogLog 时 ， 命 令 返回 给 定 HyperLogLog 的 基数 估算 值 。 当 给 定 多 个 
HyperLogLog 时 ， 命 令 会 先 对 给 定 的 HyperLogLog 进行 并 集 计 算 ， 得 出 一 个 合并 后 的 
HyperLogLog ， 然 后 返回 这 个 合并 HyperLogLog 的 基数 估算 值 作为 命令 的 结果 (合并 得 出 的 
HyperLogLog 不 会 被 储存 ， 使 用 之 后 就 会 被 删 掉 ) 。 当 命令 作用 于 单个 HyperLogLog 时 ， 
复杂 度 为 O(1) ， 并 且 具 有 非常 低 的 平均 常数 时 间 。 当 命令 作用 于 多 个 HyperLogLog 时 ， 
BABA O(N) ， 并 且 常 数 时 间 也 比 处 理 单个 HyperLogLog 时 要 大 得 多 。 


2.7.3 合并 多 个 HyperLogLog 


PFMERGE destkey sourcekey [sourcekey ...] 


将 多 个 HyperLogLog 合并 为 一 个 HyperLogLog ， 合 并 后 的 HyperLogLog 的 基数 估算 值 是 通 
过 对 所 有 给 定 HyperLogLog 进行 并 集 计 算得 出 的 。 命令 的 复杂 度 为 O(N) ， 其 中 N 为 被 合 
并 的 HyperLogLog 数量 ， 不 过 这 个 命令 的 常数 复杂 度 比较 高 。 


3.1 排序 


redis 支 持 对 list，set 和 sorted set 元 素 的 排序 。 排 序 命令 是 sort 完整 的 命令 格式 如 下 : 


SORT key [BY pattern] [LIMIT start count] [GET pattern] [ASC|DESC] [ALPHA] [STORE dstk 
ey] 


复杂 度 为 O(N+M*log(M))。(N 是 集合 大 小 ，M 为 返回 元 素 的 数量 ) 
说 明 : 


1. [ASC|DESC] [ALPHA]: sort 默 认 的 排序 方式 〈asc) 是 从 小 到 大 排 的 ,当然 也 可 以 按照 逆序 
或 者 按 字符 顺序 排 。 

2. [BY pattern] : 除了 可 以 按 集合 元 素 自身 值 排序 外 ， 还 可 以 将 集合 元 素 内 容 按 照 给 定 
pattern 组 合成 新 的 key， 并 按照 新 key 中 对 应 的 内 容 进行 排序 。 例 如 : 

3. 127.0.0.1:6379sort watch:leto by severtity:* desc 

4. [GET pattern] : 可 以 通过 get 选 项 去 获取 指定 pattern 作 为 新 key 对 应 的 值 ，get 选 项 可 以 有 
多 个 。 例 如 : 127.0.0.1:6379sort watch:leto by severtity: get severtity: ° 对 于 Hash 的 引 
用 ， 采 用 ->， 例 如 : sort watch:leto get # get bug:*->priority ° 

5. [LIMIT start count] 限定 返回 结果 的 数量 。 

6. [STORE dstkey] 把 排序 结果 缓存 起 来 


调用 一 次 SORT 命令 可 以 给 定 多 个 GET 选项 。 redis> SORT names ALPHA GET d *-id GET 


*-name 
redis> SADD names "peter" "tom" "jack" 1) "jack" 
(integer) 3 2)"255255" 
3) "Jack Sparrow" 
redis? MSET peter-name "Peter Hanson" jack- 4) "peter" 
name "Jack Sparrow" tom-name "Thomas 5)"10086" 
Edward" 6) "Peter Hanson" 
OK 7) "tom" 
8) "123321" 
redis? MSET peter-id 10086 jack-id 255255 9) "Thomas Edward" 


tom-id 123321 
OK 当 给 定 GET # 时 , 命令 会 返回 被 排序 的 值 本 身 。 


Apt 


redis» SORT team-member-ids BY *-KPI GET # GET *-name GET *-KPI 
# 通过 KPI 值 , 对 团队 中 各 个 成 员 的 ID 进行 排序 
# 然后 根据 排序 结果 , 依次 获取 成 员 的 ID、 名字 和 KPI 值 


redis> SORT names ALPHA DESC GET # GET *-id GET "-ngme LIMIT 0 5 STORE profiles 
# 对 names 键 的 值 进行 文字 形式 的 降序 排序 ， 

# 根据 排序 后 的 前 五 个 (B. 获取 值 本 身 、 及 其 对 应 的 ID 和 名 字 

# 然后 将 获取 到 的 这 些 信息 储存 到 profiles 键 里 面 
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3.2 事务 


用 Multi(Start Transaction) >` Exec(Commit) ` Discard(Rollback) ÈI ° 在 事务 提交 前 ， 不 会 执 
行 任何 指令 ， 只 会 把 它们 存 到 一 个 队列 里 ， 不 影响 其 他 客户 端的 操作 。 在 事务 提交 时 ， 批 量 
执行 所 有 指令 。 一 般 情 况 下 redis 在 接受 到 一 个 client 发 来 的 命令 后 会 立即 处 理 并 返回 处 理 结 
果 ， 但 是 当 一 个 client 在 一 个 连接 中 发 出 multi 命 令 后 ， 这 个 连接 会 进入 一 个 事务 上 下 文 ， 该 连 
接 后 续 的 命令 并 不 是 立即 执行 ， 而 是 先 放 到 一 个 队列 中 。 当 从 此 连接 受到 exec 命 令 后 ，redis 
会 顺序 的 执行 队列 中 的 所 有 命令 。 并 将 所 有 命令 的 运行 结果 打包 到 一 起 返回 给 client. 然 后 此 连 
接 就 结束 事务 上 下 文 。 


Redis 还 提供 了 一 个 Watch 功能 ， 你 可 以 对 一 个 key 进 行 Watch， 然 后 再 执行 Transactions， 在 
这 过 程 中 ， 如 果 这 个 Watched 的 值 进 行 了 修改 ， 那 么 这 个 Transactions 会 发 现 并 拒绝 执行 。 


使 用 discard 命 令 来 取消 一 个 事务 。 


注意 : redis 只 能 保证 事务 的 每 个 命令 连续 执行 ( 因为 是 单线 程 架 构 ， 在 执行 完事 务 内 所 有 指 
令 前 是 不 可 能 再 去 同时 执行 其 他 客户 端的 请 求 的 ， 也 因此 就 不 存在 "事务 内 的 查询 要 看 到 事务 
里 的 更 新 ， 在 事务 外 查询 不 能 看 到 "这 个 让 人 万 分 头痛 的 问题 ) ， 但 是 如 果 事 务 中 的 一 个 命令 
失败 了 ， 并 不 回 滚 其 他 命令 。 另 外 ， 一 个 十 分 罕见 的 问题 是 当 事 务 的 执行 过 程 中 ， 如 果 redis 
意外 的 挂 了 。 只 有 部 分 命令 执行 了 ， 后 面 的 也 就 被 丢弃 了 。 注 意 ， 如 果 是 笔 误 ， 语 法 出 现 错 
误 ， 则 整个 事务 都 无 法 执行 。 


一 个 简单 案例 表明 出 错 也 不 会 回 滚 : 


127.0.0.1:6379» del q1 
(integer) 0 

127.0.0.1:6379» exists qi 
(integer) 0 

127.0.0.1:6379» multi 

OK 

127.0.0.1:6379» rpush qi bar 
QUEUED 

127.0.0.1:6379» scard qi 
QUEUED 

127.0.0.1:6379> exec 

1) (integer) 1 

2) (error) WRONGTYPE Operation against a key holding the wrong kind of value 
127.0.0.1:6379» exists qi 
(integer) 1 


当然 如 果 我 们 使 用 的 append-only file 方 式 持久 化 ，redis 会 用 单个 write 操作 写 入 整个 事务 内 
容 。 即 是 是 这 种 方式 还 是 有 可 能 只 部 分 写 入 了 事务 到 磁盘 。 发 生 部 分 写 入 事务 的 情况 下 ， 
redis 重 启 时 会 检测 到 这 种 情况 ， 然 后 失败 退出 。 可 以 使 用 redis-check-aof 工 具 进 行 修复 ， 修 


够 重新 启动 了 。 


利用 流水 线 (pipeline) 的 方式 从 client 打 包 多 条 命令 一 起 发 出 ， 不 需要 等 待 单条 命令 的 响应 返 
回 ， 而 redis 服 务 端 会 处 理 完 多 条 命令 后 会 将 多 条 命令 的 处 理 结果 打包 到 一 起 返回 给 客户 端 : 


cat data.txt | redis-cli -pipe 


在 选择 开源 redis 开 发 库 时 需要 着 重 注 意 是 否 支持 pipeline， 常 见 的 jedis 可 以 支持 。 


在 部 署 架构 是 网 络 多 跳 的 时 候 需 要 注意 使 用 pipeline 提 高 处 理 效率 。 


3.4 A A TT X 


redis t 4 — 4-pub/sub server， 在 订阅 者 和 发 布 者 之 间 起 到 了 消息 路 由 的 功能 。 订 阅 者 可 以 通 
过 subscribe 和 psubscribe 命 令 向 redis server 订 阅 自己 感 兴趣 的 消息 类 型 ，redis 将 消息 类 型 称 
为 频道 (channel)。 当 发 布 者 通过 publish 命 令 向 redis server 发 送 特 定 类 型 的 消息 时 。 订 阅 该 消 
息 类 型 的 全 部 client 都 会 收 到 此 消息 。 这 里 消息 的 传递 是 多 对 多 的 。 一 个 client 可 以 订阅 多 个 
channel, 也 可 以 向 多 个 channel 发 送 消 息 。 


终端 A : 
127.0.0.1:6379> subscribe comments 
Reading messages... (press Ctrl-C to quit) 


1) "subscribe" 
2) "comments" 
3) (integer) 1 


A 3B: 
127.0.0.1:6379» subscribe comments 
Reading messages... (press Ctrl-C to quit) 


1) "subscribe" 

2) "comments" 

3) (integer) 1 

终端 C : 

127.0.0.1:6379> publish comments good! 
(integer) 2 


终端 A: 
127.0.0.1:6379> subscribe comments 
Reading messages... (press Ctrl-C to quit) 


1) "subscribe" 
2) "comments" 
3) (integer) 1 
1) "message" 
2) "comments" 


3) "good!" 

A 3B: 

127.0.0.1:6379» subscribe comments 

Reading messages... (press Ctrl-C to quit) 


1) "subscribe" 
2) "comments" 
3) (integer) 1 
1) "message" 
2) "comments" 
3) "good!" 


可 以 使 用 psubscribe 通 过 通配符 进行 多 个 channel 的 订阅 


发 布 订 阅 
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4. 开发 设计 规范 


4.1 Key it 
key 的 一 个 格式 约定 : object-type:id:field 。 用 ":" 分 隔 域 ， 用 "." 作 为 单词 间 的 连接 ， 
Je" comment:12345:reply.to "。 不 推荐 含义 不 清 的 key 和 特别 长 的 key。 


一 般 的 设计 方法 如 下 : 1: 把 表 名 转换 为 key 前 级 如 , tag: 2: 第 2 段 放置 用 于 区 分 区 key 的 字段 -- 
对 应 mysql 中 的 主键 的 列 名 ,如 userid 3: 第 3 段 放置 主键 值 ,如 2,3,4...., a, b,c4: 第 4 段 , 写 要 存储 
的 列 名 


例如 用 户 表 user, 转换 为 key-value 存 储 : 


userid username password email 


9 lisi 1111111 lisi@163.com 


set user:userid:9:username lisi 
set user:userid:9:password 111111 
set user:userid:9:email lisi9163.com 


例如 ， 查 看 某 个 用 户 的 所 有 信息 为 : 


keys user:userid:9* 


如 果 另 一 个 列 也 常常 被 用 来 查找 ， 比 如 username， 则 也 要 相应 的 生成 一 条 按照 该 列 为 主 的 
key-value， 例 如 : 


user:username:lisi:uid 9 


此 时 相当 于 RDBMS 中 在 username 上 加 索引 ， 我 们 可 以 根据 username:lisi:uid , 查 出 
Userid=9， 再 查 user:9:password/email ... 


4.2 超时 设置 


从 业务 需求 逻辑 和 内 存 的 角度 ， 尽 可 能 的 设置 key 存活 时 间 。 


4.3 数据 异常 处 理 


程序 应 该 处 理 如 果 redis 数 据 丢失 时 的 清理 redis 内 存 和 重新 加 载 的 过 程 。 


nm 


4.4 内 存 考 虑 


1. 只 要 有 可 能 的 话 ， 就 尽量 使 用 散 列 键 而 不 是 字符 串 键 来 储存 键 值 对 数据 ， 因 为 散 列 键 管 
理 方 便 、 能 够 避免 键 名 冲突 、 并 且 还 能 够 节约 内 存 。 


具体 实例 : 节约 内 存 : Instagram 的 Redis 实 践 blog.nosqlfan.com/html/3379.html 


2. 如果 将 redis 作 为 cache 进 行 频繁 读 写 和 超时 删除 等 ， 此 时 应 该 避免 设置 较 大 的 k-v， 因 为 
这 样 会 导致 redis 的 内 存 碎片 增加 ， 导 致 rss 占 用 较 大 ， 最 后 被 操作 系统 OOM killer T 3$ © 
一 个 很 具体 的 issue 例 子 请 见 : https://github.com/antirez/redis/issues/2136 


3， 如 果 采 用 序列 化 考虑 通用 性 ， 请 采用 json 相 关 的 库 进行 处 理 ， 如 果 对 内 存 大 小 和 速度 都 很 
关注 的 ， 推 荐 使 用 messagepack 进 行 序列 化 和 反 序 列 化 


4. 如 果 需 要 计数 器 ， 请 将 计数 器 的 key 通 过 天 或 者 小 时 分 割 ， 比 如 下 边 的 设计 : 


| event:click:{event page# id} 





event:click:{event page# id} 


需要 修改 为 : 


event:click:daily:{date}:{event page# id) 





event:click:daily:{date}:{event page# id) 


更 好 的 一 个 设计 是 采用 hash : 


一 hincrBy 





java.util.SortedHashMap Sorted by date 
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5. 各 种 数据 结构 及 其 占用 内 存 的 benchmark 测 试 


set 个 数 

100 

100 

100 

1000 
1000 
1000 
10000 
10000 


Zset 个 数 

100 

100 

100 

1000 
1000 
1000 
10000 
10000 


hash 个 数 

100 

100 

100 

1000 

1000 

1000 
10000 
10000 


每 个 set 的 元 素 总 数 

100 

1000 

10000 

100 

1000 

10000 

100 

1000 


每 个 zset 的 元 素 总 数 
100 
1000 
10000 
100 
1000 
10000 
100 
1000 


每 个 hash 的 元 素 总 数 


100 
1000 
10000 
100 
1000 
10000 
100 
1000 


内 存 占用 
1.88M 
10.75M 
111.12M 
11.59M 
100.35M 
1.08G 
108.71M 
996.23M 


内 存 占用 
1.62M 
15.91M 
162.06M 
8.71M 
151.87M 
1.58G 
79.83M 
1.48G 


内 存 占用 
1.63M 
6.29M 
156.91M 
8.71M 
55.59M 
1.52G 
79.83M 
548.58M 


Key 大 小 


oO OO COC oOo OO N N N 


Key 大 小 


Value 大 小 
36 
36 
36 
36 
36 
36 
36 
36 


Value 大 小 
49 
49 
49 
49 
49 
49 
49 
49 


Value 大 小 
49 
49 
49 


list 个 数 每 个 list 的 元 素 总 数 
100 100 
100 1000 
100 10000 
1000 100 
1000 1000 
1000 10000 
10000 100 
10000 1000 

string 个 数 内 存 占 用 

100 846.79K 
1000 966.29K 
10000 2.16M 
100000 130.88M 


内 存 占 用 Key X. 


1.23M 
10.00M 
92.40M 
4.83M 
92.52M 
916.47M 
40.76M 10 
917.69M 10 


Key 大 小 
13 
13 
13 
13 


36 
36 
36 
36 


Value 大 小 
36 
36 
36 
36 


Value 大 小 


4.5 延迟 考虑 


1. 尽 可 能 使 用 批量 操作 : 


e mget、hmget 而 不 是 get 和 hget， 对 于 set 也 是 如 此 。 
e lpush 向 一 个 list 一 次 性 导入 多 个 元 素 ， 而 不 用 |set 一 个 个 添加 
e LRANGE 一 次 取出 一 个 范围 的 元 素 ， 也 不 用 LINDEX 一 个 个 取出 


2. 尽 可 能 的 把 redis 和 APP SERVER 部 署 在 一 个 网 段 其 至 一 台 机 


gam 
o 
ds 


3. 对 于 数据 量 较 大 的 集合 ， 不 要 轻易 进行 删除 操作 ， 这 样 会 阻塞 
服务 器 ， 一 般 采 用 重 命 名 + 批量 删除 的 策略 : 


排序 集合 : 


# Rename the key 
newkey = "gc:hashes:" + redis.INCR("gc:index") 
redis.RENAME("my.zset.key", newkey) 


# Delete members from the sorted set in batche of 100s 

while redis.ZCARD(newkey) > 0 
redis.ZREMRANGEBYRANK(newkey, ©, 99) 

end 


# Rename the key 
newkey = "gc:hashes:" + redis.INCR("gc:index") 
redis.RENAME("my.set.key", newkey) 


# Delete members from the set in batches of 100 
cursor - 0 
loop 
cursor, members - redis.SSCAN(newkey, cursor, "COUNT", 100) 
if size of members > 0 
redis.SREM(newkey, members) 
end 
if cursor == 0 
break 
end 
end 


列表 : 


# Rename the key 
newkey = "gc:hashes:" + redis.INCR("gc:index") 
redis.RENAME("my.list.key", newkey) 


# Trim off elements in batche of 100s 

while redis.LLEN(newkey) > 0 
redis.LTRIM(newkey, 0, -99) 

end 


Hash : 


4. 尽 可 能 使 用 不 要 超过 1M 大 小 的 kv。 


# Rename the key 
newkey = 
redis.RENAME("my.hash.key", newkey) 


"gc:hashes:" + redis.INCR( "gc:index" ) 


# Delete fields from the hash in batche of 100s 
cursor - 0 
loop 
cursor, 
if hash keys count > 0 
redis.HDEL(newkey, hash keys) 
end 
if cursor -- 0 
break 
end 
end 


5. 减少 对 大 数据 集 的 高 时 间 复 


下 命令 可 以 优化 : 


Nu 时 间 复杂 度 描述 
; ZINTERSTORE OOK) +0 log (D) 统计 多 个 有 序 集合 的 交集 ， 并 存 情结 
SINTERSTORE ON * 1) 统计 多 个 集合 的 交集 ， 并 存 情 结果 
; SINTER ON * M) 返回 多 个 集合 的 交集 
| MIGRATE on 从 一 个 实例 上 传输 key 到 另 
DUMP 0 (NID 返回 指定 key 的 序 列 化 结果 一 
ZREN 0 (1 og (NW) 从 有 序 集合 中 移 除 一 个 或 多 个 成 员 
ZUNIONSTORE O(D40(t log (it) 统计 多 个 有 序 集合 并 集 ， 并 存 情 结果 
SORT OHI1og0OD ) 排序 list、set、sortedset 的 成 员 
SDIFFSTORE om) 统计 多 个 set 的 差 集 并 存 情 结果 
SDIFF ON) 返回 多 个 set 的 差 集 
SUNION on 统计 多 个 set 的 并 集 
LSET om) ilis B BM 
LREM a(n) 从 1ist 中 移 除 一 定数 量 成 员 
LRANGE OCS+N) 返回 1ist 中 指定 区 间 的 集合 
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hash keys - redis.HSCAN(newkey, cursor, 


"COUNT", 100) 


度 的 操作 : 根据 复杂 


提升 性 能 的 建议 
诚 少 集合 的 和 (或 ) 结 果 的 数量 


尽 可 能 减少 集合 的 数量 (大 小 ) 
诚 少 对 象 值 的 数量 和 (或 ) 大 小 
诚 少 对 象 值 的 数量 和 (或 ) 大 小 


度 计算 ， 如 


诚 少 移 除 成 员 的 数量 和 (或 ) 有 序 集合 的 大 小 


诚 少 总 求 并 集 的 集合 


合 的 总 数量 和 (或) 减少 结果 的 数量 


诚 少 排序 的 数量 和 


i> BRERA 
R 
诚 少 总 求 并 集 的 集合 的 数量 
诚 少 list 数 据 结构 的 长 度 
诚 少 list 数 据 结构 的 长 度 
诚 少 偏 物 量 和 (或 ) 区 间 的 数量 








SN 


6. 尽 可 能 使 用 pipeline 操 作 : 一 次 性 的 发 送 命 令 比 一 个 个 发 要 减 
少 网 络 延迟 和 单个 处 理 开 销 。 一 个 性 能 测试 结果 为 (注意 并 不 是 
pipeline 越 大 效率 越 高 ， 注 意 最 后 一 个 测试 结果 ) : 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 
PING_INLINE: 90155.07 requests per second 

PING_BULK: 92302.02 requests per second 

SET: 85070.18 requests per second 

GET: 86184.61 requests per second 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 -P 10 
PING_INLINE: 558035.69 requests per second 

PING_BULK: 668002.69 requests per second 

SET: 275027.50 requests per second 

GET: 376647.84 requests per second 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 -P 20 
PING_INLINE: 705716.25 requests per second 

PING_BULK: 869565.25 requests per second 

SET: 343406.59 requests per second 

GET: 459347.72 requests per second 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 -P 50 
PING_INLINE: 940733.81 requests per second 

PING_BULK: 1317523.00 requests per second 

SET: 380807.31 requests per second 

GET: 523834.47 requests per second 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 -P 100 
PING_INLINE: 999000.94 requests per second 

PING_BULK: 1440922.12 requests per second 

SET: 386996.88 requests per second 

GET: 602046.94 requests per second 


logger@BIGD1TMP:~> redis-benchmark -q -r 100000 -n 1000000 -c 50 -P 200 
PING_INLINE: 1078748.62 requests per second 

PING_BULK: 1381215.50 requests per second 

SET: 379218.81 requests per second 

GET: 537634.38 requests per second 


一 个 场景 是 一 个 购物 车 的 设计 ， 一 般 的 设计 思路 是 : 


Value (String) 








setex(key, {EXPIRE 
TIME(3days)}, JSON VALUE); 


— 


SimpleJson is used 
org.ison.simple 


在 获取 购物 车 内 部 货品 时 ， 不 使 用 pipeline 会 很 低 效 : 


It makes # of 
calls to redis 





p = redis.pipelined0 

aetProductList0 

for(productsNo){ 
p.get(product) 

} 


List<Object> redisResult = p.syncAndReturnAIl0; 
for(item:redisResult)( 
ison.add(item) 


可 以 修改 为 : } 


7. 如 果 出 现 频繁 对 string 进 行 append 操 作 ， 则 请 使 用 list 进 行 
push 操 作 ， 取 出 时 使 用 pop。 这 样 避免 string 频 繁 分 配 内 存 导 致 
的 延 时 。 


8. 如 果 要 sort 的 集合 非常 大 的 话 排序 就 会 消耗 很 长 时 间 。 由 于 
redis 单 线程 的 ， 所 以 长 时 间 的 排序 操作 会 阻塞 其 他 client 的 请 
求 。 解 决 办 法 是 通过 主 从 复制 机 制 将 数据 复制 到 多 个 slave 上 。 
然后 我 们 只 在 slave 上 做 排序 操作 。 把 可 能 的 对 排序 结果 缓存 。 
另外 就 是 一 个 方案 是 就 是 采用 sorted set 对 需要 按 某 个 顺序 访问 


的 集合 建立 索引 。 
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4.6 典型 使 用 场景 参考 


下 面 是 Redis 适 用 的 一 些 场景 : 


1. 取 最 新 N 个 数据 的 操作 


比如 典型 的 取 你 网 站 的 最 新 文章 ， 通 过 下 面 方式 ， 我 们 可 以 将 最 新 的 5000 条 评论 的 ID 放 在 
Redis 的 List 集 合 中 ， 并 将 超出 集合 部 分 从 数据 库 获取 。 


使 用 LPUSH latest.comments 命 令 ， 向 list 集 合 中 插入 数据 插入 完成 后 再 用 LTRIM 
latest.comments 0 5000 命令 使 其 永远 只 保存 最 近 5000 个 ID 然后 我 们 在 客户 端 获 取 某 一 页 评 
论 时 可 以 用 下 面 的 逻辑 


FUNCTION get latest comments(start,num items): 
id list = redis.lrange("latest.comments",start,start-num items-1) 
IF id list.length « num items 


id list = SQL DB("SELECT ... ORDER BY time LIMIT ...") 
END 

RETURN id list 

END 


如 果 你 还 有 不 同 的 筛选 维度 ， 比 如 某 个 分 类 的 最 新 N 条 ， 那 么 你 可 以 再 建 一 个 按 此 分 类 的 
List， 只 存 ID 的 话 ，Redis 是 非常 高 效 的 。 


2. 排行 榜 应 用 ， 取 TOP N 操作 


这 个 需求 与 上 面 需求 的 不 同 之 处 在 于 ， 前 面 操作 以 时 间 为 权重 ， 这 个 是 以 某 个 条 件 为 权重 ， 
比如 按 顶 的 次 数 排序 ， 这 时 候 就 需要 我 们 的 sorted set 出 马 了 ， NS 的 值 设置 成 sorted 
set 的 score， 将 具体 的 数据 设置 成 相应 的 value， 每 次 只 需要 执行 一 条 ZADD 命 令 即 可 。 


127.0.0.1:6379> zdd topapp 1 weixin 
(error) ERR unknown command 'zdd' 
127.0.0.1:6379» zadd topapp 1 weixin 
(integer) 1 

127.0.0.1:6379» zadd topapp 1 QQ 
(integer) 1 

127.0.0.1:6379» zadd topapp 2 meituan 
(integer) 1 

127.0.0.1:6379> zincrby topapp 1 meituan 
ngu 

127.0.0.1:6379> zincrby topapp 1 QQ 
"2n 

127.0.0.1:6379» zrank topapp QQ 
(integer) 1 

3) "meituan" 

127.0.0.1:6379» zrank topapp weixin 
(integer) 0 

127.0.0.1:6379» zrange topapp 0 -1 

1) "weixin" 


2) "QQ" 


3. 需 要 精准 设 定 过 期 时 间 的 应 用 
比如 你 可 以 把 上 面 说 到 的 sorted set 的 score 值 设置 成 过 期 时 间 的 时 间 玲 ， 那 么 就 可 以 简单 
地 通过 过 期 时 间 排 序 ， 定 时 清除 过 期 数据 了 ， 不 仅 是 清除 Redis 中 的 过 期 数据 ， 你 完全 可 以 把 


Redis 里 这 个 过 期 时 间 当 成 是 对 数据 库 中 数据 的 索引 ， 用 Redis 来 找 出 哪些 数据 需要 过 期 删 
除 ， 然 后 再 精准 地 从 数据 库 中 删除 相应 的 记录 。 


4. 计 数 器 应 用 
Redis 的 命令 都 是 原子 性 的 ， 你 可 以 轻松 地 利用 INCR，DECR 命令 来 构建 计数 器 系统 。 


5.Uniq 操作 ， 获 取 某 段 时 间 所 有 数据 排 重 值 


这 个 使 用 Redis 的 set 数 据 结构 最 合适 了 ， 只 需要 不 断 地 将 数据 往 set 中 扔 就 行 了 ，set 意 为 集 
合 ， 所 以 会 自动 排 重 。 


6. 实 时 系统 ， 反 垃圾 系统 


通过 上 面 说 到 的 set 功 能， 你 可 以 知道 一 个 终端 用 户 是 否 进行 了 茶 个 操作 ， 可 以 找到 其 操作 的 
集合 并 进行 分 析 统计 对 比 等 。 


7.Pub/Sub 构建 实时 消息 系统 


Redis 的 Pub/Sub 系统 可 以 构建 实时 的 消息 系统 ， 比 如 很 多 用 Pub/Sub 构建 的 实时 聊天 系统 
的 例子 。 


8. 构 建 队 列 系统 


使 用 list 可 以 构建 队列 系统 ， 使 用 sorted set 甚 至 可 以 构建 有 优先 级 的 队列 系统 。 


9. 缓 存 


性 能 优 于 Memcached， 数 据 结 构 更 多 样 化 。 作 为 RDBMS 的 前 端 挡 箭 牌 ，redis 可 以 对 一 些 使 
用 频率 极 高 的 sql 操 作 进行 cache， 比 如 ， 我 们 可 以 根据 sql 的 hash 进 行 SQL 结果 的 缓存 : 


def get results(sql): 
hash = md5.new(sql).digest() 
result = redis.get(hash) 
if result is None: 
result = db.execute(sql) 
redis.set(hash, result) 
# or use redis.setex to set a TTL for the key 
return result 


10. 使 用 Setbit 进 行 统计 计数 


下 边 的 例子 是 记录 UV 


#!/usr/bin/python 

import redis 

from bitarray import bitarray 
from datetime import date 


r=redis.Redis(host='localhost', port=6379, db=0) 
today=date.today().strftime('%Y-%m-%d' ) 


def bitcount(n): 
len(bin(n) -2) 


def setup(): 
r.delete('user:'+today) 
r.setbit('user:'+today,100,0) 


def setuniquser (uid): 
r.setbit('user:'+today,uid,1) 


def countuniquser(): 

a = bitarray() 
a.frombytes(r.get('user:'+today), ) 
print a 

print a.count() 


if name --' main ': 





setup() 
setuniquser(uid-0) 
countuniquser() 


11. 维 护 好 友 关 系 


使 用 set 进 行 是 否 为 好 友 关 系 ， 共 同好 友 等 操作 


12. 使 用 Redis 实现 自动 补 全 功能 
使 用 有 序 集合 保存 输入 结果 : 


ZADD word:a © apple 0 application 0 acfun 0 adobe 
ZADD word:ap © apple © application 

ZADD word:app © apple © application 

ZADD word:appl © apple © application 

ZADD word:apple 0 apple 

ZADD word:appli 0 application 


再 使 用 一 个 有 序 集合 保存 热度 : 


ZADD word scores 100 apple 80 adobe 70 application 60 acfun 


取 结 果 时 采用 交集 操作 : 


ZINTERSTORE word result 2 word scores word:a WEIGHTS 1 1 
ZRANGE word result 0 -1 withscores 


13. 可 靠 队 列 设 计 


j^ 
( UUID 045f... ) ( UUID d89e... ) ( UUID 86d2... ) 


e et I e) ‘Va e H h 1 l 


( UUID 86d2... | ( @Stale Time ) ( UUID 86d2... ) ( Value A | 

( UUID d89e... ] ( GStale Time ) ( UUID d89e... ) ( Value B ] 

( UUID 045f... ] ( @Stale Time ) ( UUID 045f... ) ( Value C ] 
IL 

( UUID 86d2... ] ( GDelay Time ) ( UUID 86d2... ) ( Stats A | 

( UUID d89e... ] ( GDelay Time ) ( UUID d89e... ) ( Stats B | 


( UUID 045f... ] ( @Delay Time } ( UUID 045f... ] ( Stats C ] 


* UUIDs as Surrogate Keys Our strategy spreads information about the state of an item in 
the queue across a number of Redis data structures, requiring the use of a per-item 
surrogate key to tie them together. The UUID is a good choice here because 1) they are 
quick to generate, and 2) can be generated by the clients in a decentralized manner. ° 
Pending List The Pending List holds the generated UUIDs for the items that have been 
enqueued(), and are ready to be processed. It is a RedisList, presenting the generated 
UUIDs in FIFO order. * Values Hash The Values Hash holds the actual items that have been 
enqueued. It is a Redis Hash, mapping the generated UUID to the binary form of the the 
item. This is the only representation of the original item that will appear in any of the data 
structures. * Stats Hash The Stats Hash records some timestamps and counts for each of 
the items. Specifically: « enqueue time * last dequeue time * dequeue count « last requeue 
time * last requeue count. It is a Redis Hash, mapping the generated UUID to a custom data 
structure that holds this data in a packed, binary form. Why keep stats on a per-item basis? 
We find it really useful for debugging (e.g. do we have a bad apple item that is being 
continuously requeued?), and for understanding how far behind we are if queues start to 
back up. Furthermore, the cost is only ~40 bytes per item, much smaller than our typical 
queued items. * Working Set The Working Set holds the set of UUIDs that have been 
dequeued(), and are currently being processed. It is a Redis Sorted Set, and scores each of 
the UUIDs by a pre-calculated, millisecond timestamp. Any object that has exceeded its 
assigned timeout is considered abandoned, and is available to be reclaimed. * Delay Set 


The Delay Set holds the set of UUIDs that have been requeued() with a per-item deferment. 
It is a Redis Sorted Set, and scores each of the UUIDs by a pre-calculated, millisecond 
timestamp. Once the deferment timestamp has expired, the item will be returned to the 
Pending List. Why support per-item deferment? We have a number of use cases where we 
might want to backoff specific pieces of work — maybe an underlying resource is too busy 
— without backing off the entire queue. Per-item deferment lets us say, “requeue this item, 
but don't make it available for dequeue for another n seconds." 


4.7 客户 端 推荐 
4.7.1 Redis-Python 了 驱动 的 安装 和 使 用 


unzip redis-py-master.zip 
cd redis-py-master/ 
sudo python setup.py install 


完成 后 import redis 即 可 。 


。 ap pis Uz ae 
4.7.2 Redis-Java 客 户 端 推荐 
1. Jedis : https://github.com/xetorthio/jedis 重点 推荐 
2. Spring Data redis : https://github.com/spring-projects/spring-data-redis 使 用 Spring 框架 
时 推荐 
3. Redisson : https://github.com/mrniko/redisson 分 布 式 锁 、 阻 塞 队列 的 时 重点 推荐 


4.7.3 Redis-C 客 户 端 推 荐 


Hiredis 是 redis 数 据 库 一 个 官方 推荐 的 C 语 言 redis client 库 。 


5. 上 线 部 署 规划 


5.1 内 存 、CPU 规 划 


一 定 要 设置 最 大 内 oy > 否则 物理 内 存 用 爆 了 就 会 大 量 使 用 Swap， 写 RDB 文 
件 时 的 速度 很 慢 。 注 意 这 个 参数 指 的 是 info 中 的 used_memory， 在 一 些 不 利于 jmalloc 的 时 
候 ， 内 存 碎片 会 很 大 。 


多 留 55% 内 存 是 最 安全 的 。 重 写 AOF 文 件 和 RDB 文 件 的 进程 (即使 不 做 持久 化 ， 复 制 到 Slave 

的 时 候 也 要 写 RDB) 会 fork 出 一 条 新 进程 来 ， 采 用 了 操作 P ides On-Write 95 (-f- 3t 424 

进程 共享 Page。 如 果 父 进程 的 Page- 每 页 4K 有 修改 ， 父 进程 自己 创建 那个 Page 的 副本 ， 不 
影响 到 子 进 程 ) 。 
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另外 ， 需 要 考虑 内 存 碎 片 ， 假 设 碎片 为 1.2， 则 如 果 机 器 为 64G， 那 么 64*45%1/1.2 = 24G 作 为 
maxmemory 是 比较 安全 的 规划 。 


留意 Console 打 出 来 的 报告 ， 如 "RDB: pid MB of memory used by copy-on-write"。 在 系统 
极度 繁忙 时 ， 如 果 父 进程 的 所 有 Page 在 子 进 程 写 RDB 过 程 中 都 被 修改 过 了 ， 就 需要 两 们 内 
存 。 


按照 Redis 启 动 时 的 提醒 ， 设 置 


echo "vm.overcommit memory = 1" >> /etc/sysctl.conf 


使 得 fork() 一 条 10G 的 进程 时 ， 因 为 COW 策 略 而 不 一 定 需 要 有 10G 的 free memory ° 


另外 ， 记 得 关闭 THP， 这 个 默认 的 Linux 内 存 页 面 大 小 分 配 策略 会 导致 RDB 时 出 现 巨大 的 
latency 和 巨大 的 内 存 占用 。 关 闭 方法 为 : 


echo never > /sys/kernel/mm/transparent_hugepage/enabled 
echo never > /sys/kernel/mm/transparent_hugepage/defrag 


当 最 大 内 存 到 达 时 ， 按 照 配置 的 Policy 进 行 处 理 ， 默 认 策 略为 volatile-lru， 对 设置 了 expire 
time 的 key 进 行 LRU 清 除 (不 是 按 实际 expire time)。 如 果 没 有 数据 设置 了 expire time 或 者 policy 
为 noeviction， 则 直接 报错 ， 但 此 时 系统 仍 支持 get 之 类 的 读 操作 。 另外 还 有 几 种 policy， 比 如 
volatile-ttl 按 最 接近 expire time 的 ，allkeys-lrtu 对 所 有 key 都 做 LRU。 注 意 在 一 般 的 缓存 系统 

中 ， 如 果 没 有 设置 超时 时 间 ， 则 Ilru 的 策略 需要 设置 为 allkeys-lru， 并 且 应 用 需要 做 好 未 命中 的 
异常 处 理 。 特 殊 的 ， 当 redis 当 做 DB 时 ， 请 使 用 noneviction 策 略 ， 但 是 需要 对 系统 内 存 监 控 加 
强 粒 度 。 


CPU 不 求 核 数 多 ， 但 求 主 频 高 ，Cache 大 ， 因 为 redis 主 处 理 模式 是 单 进 程 的 。 同 时 避免 使 用 
虚拟 机 。 


内 存 规划 
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5.2 网 卡 RPS 设 置 


RPS 就 是 让 网 卡 使 用 多 核 CPU 的 。 传 统 方 法 就 是 网 卡 多 队列 (RSS ， 需 要 硬件 和 驱动 支 
持 ) ，RPS 则 是 在 系统 层 实现 了 分 发 和 均衡 。 如 果 对 redis 网 络 处 理 能 力 要 求 高 或 者 在 生产 上 
发 现 cpu0 的 ， 可 以 在 OS 层面 打开 这 个 内 核 功 能 。 


设置 脚本 : 


#!/bin/bash 
# Enable RPS (Receive Packet Steering) 


rfc-32768 

cc-$(grep -c processor /proc/cpuinfo) 

rsfe=$(echo $cc*$rfc | bc) 

sysctl -w net.core.rps sock flow entries-$rsfe 

for fileRps in $(ls /sys/class/net/eth*/queues/rx-*/rps cpus) 
do 

echo fff » $fileRps 

done 


for fileRfc in $(ls /sys/class/net/eth*/queues/rx-*/rps flow cnt) 
do 

echo $rfc > $fileRfc 

done 


tail /sys/class/net/eth*/queues/rx-*/{rps_cpus, rps_flow_cnt} 


5.3 RF SB Ale oe 


尽 可 能 把 client 和 server 部 署 在 同一 台 机 器 上 ， 比 如 都 部 署 在 app server， 或 者 一 个 网 段 中 ， 减 
少 网 络 延 迟 对 于 redis 的 影响 。 


如 果 是 同一 台 机 器 ， 又 想 榨 干 redis 性 能 可 以 考虑 采用 UNIX domain sockets 配 置 方式 ， 配 置 方 
式 如 下 


# 0 = do not listen on a port 
port 0 


# listen on localhost only 
bind 127.0.0.1 


# create a unix domain socket to listen on 
unixsocket /tmp/redis.sock 


# set permissions for the socket 
unixsocketperm 755 


这 样 的 配置 方式 在 没有 大 量 pipeline 下 会 有 一 定性 能 提升 ， 有 具体 请 参 
http://redis.io/topics/benchmarks : 


另外 ， 对 于 混合 部 署 即 redis 和 应 用 部 署 在 同一 台 服 务 器 上 ， 那 么 可 能 会 出 现 如 下 的 情况 


出 现 瞬 时 Redis 大 量 连接 和 处 理 超 时 ， 应 用 业务 线程 被 阻塞 ， 导 致 服务 拒绝 ， 过 一 段 时 
间 可 能 又 自动 恢复 了 。 这 种 瞬时 故障 非常 难 抓 现场 ， 一 天 来 上 几 发 就 会 给 人 业务 不 稳定 
的 感受 ， 而 一 般 基 础 机 器 指标 的 监控 周期 在 分 钟 级 。 瞬 时 故障 可 能 发 生 在 监控 的 采集 间 
阶 ， 所 以 只 好 上 脚本 在 秒 级 监控 日 志 ， 发 现 瞬时 出 现 大 量 Redis 超时 错误 ， 就 收集 当时 
应 用 的 JVM 堆栈 、 内 存 和 机 器 CPU Load 等 各 项 指标 。 终 于 发 现 瞬时 故障 时 刻 Redis 
机 器 CPU Load 出 现 瞬 间 舰 升 几 百 的 现象 ， 应 用 和 Redis 混合 部 署 时 应 用 可 能 瞬间 抢占 
了 全 部 CPU 导致 Redis 没有 CPU 资源 可 用 。 而 应 用 处 理 业 务 的 逻辑 又 可 能 需要 访问 
Redis， 而 Redis 又 没有 CPU 资源 可 用 导致 超时 ， 这 不 就 像 一 个 死 锁 么 。 搞 清楚 了 原因 
其 实 解决 方法 也 简单 ， 就 是 分 离 应 用 和 Redis 的 部 署 ， 各 自 资源 隔离 


出 处 : http://mp.weixin.qq.com/s? 
_ biz=MzAxMTEyOTQ5OQ==&mid=402004912&idx=1&sn=7517696a86f54262e60e1b 
5636d6cbe0&3rd=MzA3MDU4NTYzMw==&scene=6#rd 


因此 在 混合 部 署 下 要 对 极限 性 了 监控 ， 提 前 将 可 能 出 现 性 能 问题 的 应 用 寺 移 出来。 
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5.4 持久 化 设置 


RDB 和 AOF 两 者 毫 无 关系 ， 完 全 独立 运行 ， 如 果 使 用 了 AOF， 重 启 时 只 会 从 AOF 文 件 载 入 数 
据 ， 不 会 再 管 RDB 文 件 。 在 配置 上 有 三 种 选择 : 不 持久 化 ，RDB，RDB+AOF 。 官 方 不 推荐 
只 开启 AOF (因为 恢复 太 慢 另外 如 果 aof 引 擎 有 bug) ， 除 非 明 显 的 读 多 写 少 的 应 用 。 开局 
AOF 时 应 当 关 闭 AOF 自 动 rewrite， 并 在 crontab 中 局 动 在 业务 低 峰 时 段 进 行 的 bgrewrite。 如 果 
在 一 台 机 器 上 部 署 多 个 redis 实 例 ， 则 关闭 RDB 和 AOF 的 自动 保存 (save "", auto-aof-rewrite- 
percentage 0) ， 通 过 crontab 定 时 调用 保存 : 


mh * * * redis-cli -p «port» BGSAVE 
mh */4 * * redis-cli -p «port» BGREWRITEAOF 


持久 化 的 部 署 规划 上 ， 如 果 为 主 从 复制 关系 ， 建 议 主 关闭 持久 化 。 


5.5 多 实例 配置 


如 果 一 台 机 器 上 防止 多 个 redis 实 例 ， 为 了 防止 上 下 文 切换 导致 的 开销 ， 可 以 采用 taskset 。 
taskset 是 LINUX 提 供 的 一 个 命令 (ubuntu 系统 可 能 需要 自行 安装 ，schedutils package)。 他 可 
以 让 某 个 程序 运行 在 某 个 〈 或 ) 菜 些 CPU 上 © 


1) 显示 进程 运行 的 CPU (6137 为 redis-server 的 进程 号 ) 


[redis@hadoop1 -]$ taskset -p 6137 
pid 6137's current affinity mask: f 


显示 结果 的 f 实 际 上 是 二 进 制 4 个 低位 均 为 1 的 bitmask， 每 一 个 1 对 应 于 1 个 CPU， 表 示 该 进程 
在 4 个 CPU 上 运行 


2) 指定 进程 运行 在 某 个 特定 的 CPU 上 


[redis@hadoop1 -]$ taskset -pc 3 6137 
pid 6137's current affinity list: 0-3 
pid 6137's new affinity list: 3 


È : 3 表示 CPU 将 只 会 运行 在 第 4 个 CPU 上 (从 0 开始 计数 ) 。 
3) 进程 启动 时 指定 CPU 
taskset -c 1 ./redis-server ../redis.conf 


参数 : OPTIONS -p, --pid operate on an existing PID and not launch a new task 


-C, --cpu-list specify a numerical list of processors instead of a bitmask. The list may contain 
multiple items, separated by comma, and ranges. For example, 0,5,7,9-11. 


5.6 具体 设置 参数 


详 见 我 行 自制 安装 包 conf 目 录 中 的 各 个 配置 文件 和 上 线 前 检查 表格 。 
redis 参 数 设 置 技巧 列表 : 


1. Daemonize 这 个 参数 在 使 用 supervisord 这 种 进程 管理 工具 时 一 定 要 设置 为 No， 否则 无 法 
使 用 这 些 工 具 将 redis 启 动 。 


2. Dir RDB 的 位 置 ， 一 定 要 事先 创建 好 ， 并 且 启 动 redis 的 用 户 对 此 目录 要 有 读 写 权限 。 


3. Include 如 果 是 多 实例 的 话 可 以 将 公共 的 设置 放 在 一 个 conf 文 件 中 ， 然 后 引用 即 可 : 
include /redis/conf/redis-common.conf 


5.7 其 他 好 用 的 配置 技巧 


5.7.1 使 用 supervisord 进 行进 程 管理 


Supervisord 是 一 个 优秀 的 进程 管理 工具 ， 一 般 在 部 署 redis 时 采用 它 来 进行 redis、sentinel 等 
进程 的 管理 ， 一 个 已 经 在 生产 环境 采用 的 supervisord 配 置 文件 如 下 : ; Sample supervisor 
config file. ; ; For more information on the config file, please see: ; 
http://supervisord.org/configuration.html ; ; Notes: ; - Shell expansion ("~" or "$HOME") is not 
supported. Environment ; variables can be expanded using this syntax: "%(ENV_HOME)s". ; 
- Comments must have a leading space: "a=b ;comment" not "a=b;comment". 


[unix http server] 

file-/smsred/redis-3.0.4/run/supervisor.sock ; (the path to the socket file) 
;chmod-0700 ; socket file mode (default 0700) 

;chownznobody:nogroup ; socket file uid:gid owner 

;username-user ; (default is no username (open server)) 

;password-123 ; (default is no password (open server)) 


;[inet http server] ; inet (TCP) server disabled by default 
;port-127.0.0.1:9001 ; (ip address:port specifier, *:port for all iface) 
;username-user ; (default is no username (open server)) 

;password-123 ; (default is no password (open server)) 


[supervisord] 

logfile-/smsred/redis-3.0.4/10g/supervisord.log ; (main log file;default $CWD/supervis 
ord.log) 

logfile maxbytes-50MB ; (max main logfile bytes b4 rotation;default 50MB) 
logfile_backups=10 ; (num of main logfile rotation backups;default 10) 

loglevel=info ; (log level;default info; others: debug,warn, trace) 
pidfile-/smsred/redis-3.0.4/run/supervisord.pid ; (supervisord pidfile;default supervi 
sord.pid) 

nodaemon=false ; (start in foreground if true;default false) 

minfds=1024 ; (min. avail startup file descriptors;default 1024) 

minprocs=200 ; (min. avail process descriptors;default 200) 

;umask=022 ; (process file creation umask;default 022) 

;user=chrism ; (default is current user, required if root) 

;identifier-supervisor ; (supervisord identifier, default is 'supervisor') 
;directory-/tmp ; (default is not to cd during start) 

;nocleanup-true ; (don't clean up tempfiles at start;default false) 

;childlogdir-/tmp ; ('AUTO' child log dir, default $TEMP) 

;environment-KEY-"value" ; (key value pairs to add to environment) 

;strip ansi-false ; (strip ansi escape codes in logs; def. false) 


; the below section must remain in the config file for RPC 
; (supervisorctl/web interface) to work, additional interfaces may be 
; added by defining them in separate rpcinterface: sections 


[rpcinterface:supervisor] 
supervisor.rpcinterface factory - supervisor.rpcinterface:make main rpcinterface 


[supervisorctl] 

serverurl-unix:///smsred/redis-3.0.4/run/supervisor.sock ; use a unix:// URL for a uni 
X socket 

;serverurl-http://127.0.0.1:9001 ; use an http:// url to specify an inet socket 
;username-chris ; should be same as http username if set 

;password-123 ; should be same as http password if set 

;prompt=mysupervisor ; cmd line prompt (default "supervisor") 

;history file--/.sc history ; use readline history if available 


; The below sample program section shows all possible program subsection values, 
; create one or more 'real' program: sections to be able to control them under 
; Supervisor. 


; [program: theprogramname] 

;command-/bin/cat ; the program (relative uses PATH, can take args) 
;process_name=%(program_name)s ; process name expr (default %(program_name)s) 
;numprocs=1 ; number of processes copies to start (def 1) 

;directory-/tmp ; directory to cwd to before exec (def no cwd) 

;umask=022 ; umask for process (default None) 

;priority=999 ; the relative start priority (default 999) 

;autostart-true ; start at supervisord start (default: true) 
;autorestart-unexpected ; whether/when to restart (default: unexpected) 
;startsecs-1 ; number of secs prog must stay running (def. 1) 

;startretries-3 ; max # of serial start failures (default 3) 

;exitcodes-z0,2 ; 'expected' exit codes for process (default 0,2) 
;stopsignal=QUIT ; signal used to kill process (default TERM) 
;stopwaitsecs-10 ; max num secs to wait b4 SIGKILL (default 10) 
;stopasgroup-false ; send stop signal to the UNIX process group (default false) 
;killasgroup-false ; SIGKILL the UNIX process group (def false) 

;user=chrism ; setuid to this UNIX account to run the program 

;redirect stderr-true ; redirect proc stderr to stdout (default false) 
;stdout logfile-/a/path ; stdout log path, NONE for none; default AUTO 
;stdout logfile maxbytes-1MB ; max # logfile bytes b4 rotation (default 50MB) 
;stdout logfile backups-10 ; # of stdout logfile backups (default 10) 

;stdout capture maxbytes-1MB ; number of bytes in 'capturemode' (default 0) 
;stdout events enabled-false ; emit events on stdout writes (default false) 
;stderr logfile-/a/path ; stderr log path, NONE for none; default AUTO 
;stderr logfile maxbytes-1MB ; max £ logfile bytes b4 rotation (default 50MB) 
;stderr logfile backups-10 ; # of stderr logfile backups (default 10) 

;stderr capture maxbytes-1MB ; number of bytes in 'capturemode' (default 0) 
;stderr events enabled-false ; emit events on stderr writes (default false) 
;environment=A="1",B="2" ; process environment additions (def no adds) 
;serverurl-AUTO ; override serverurl computation (childutils) 


; The below sample eventlistener section shows all possible 

; eventlistener subsection values, create one or more 'real' 

; eventlistener: sections to be able to handle event notifications 
; sent by supervisor. 


; Leventlistener: theeventlistenername ] 


;command-/bin/eventlistener ; the program (relative uses PATH, can take args) 
;process_name=%(program_name)s ; process name expr (default %(program_name)s) 
;numprocs=1 ; number of processes copies to start (def 1) 

;events-EVENT ; event notif. types to subscribe to (req'd) 

;buffer size-10 ; event buffer queue size (default 10) 

;directory-/tmp ; directory to cwd to before exec (def no cwd) 

;umask=022 ; umask for process (default None) 

;priority=-1 ; the relative start priority (default -1) 

;autostart-true ; start at supervisord start (default: true) 
;autorestart-unexpected ; whether/when to restart (default: unexpected) 
;startsecs-1 ; number of secs prog must stay running (def. 1) 

;startretries-3 ; max # of serial start failures (default 3) 

;exitcodes-0,2 ; 'expected' exit codes for process (default 0,2) 
;stopsignal-QUIT ; signal used to kill process (default TERM) 
;stopwaitsecs-10 ; max num secs to wait b4 SIGKILL (default 10) 
;stopasgroup-false ; send stop signal to the UNIX process group (default false) 
;killasgroup-false ; SIGKILL the UNIX process group (def false) 

;user-chrism ; setuid to this UNIX account to run the program 

;redirect stderr-true ; redirect proc stderr to stdout (default false) 
;stdout logfile-/a/path ; stdout log path, NONE for none; default AUTO 
;stdout logfile maxbytes-1MB ; max # logfile bytes b4 rotation (default 50MB) 
;stdout logfile backups-10 ; # of stdout logfile backups (default 10) 

;stdout events enabled-false ; emit events on stdout writes (default false) 
;stderr logfile-/a/path ; stderr log path, NONE for none; default AUTO 
;stderr logfile maxbytes-1MB ; max # logfile bytes b4 rotation (default 50MB) 
;stderr logfile backups ; # of stderr logfile backups (default 10) 

;stderr events enabled-false ; emit events on stderr writes (default false) 
;environment-A-z"1",Bz"2" ; process environment additions 

;serverurl-AUTO ; override serverurl computation (childutils) 


; The below sample group section shows all possible group values, 
; create one or more 'real' group: sections to create "heterogeneous" 
; process groups. 


; [group: thegroupname ] 
;programs-prognamei,progname2 ; each refers to 'x' in [program:x] definitions 
;priority=999 ; the relative start priority (default 999) 


; The [include] section can just contain the "files" setting. This 
; setting can list multiple files (separated by whitespace or 

; newlines). It can also contain wildcards. The filenames are 

; interpreted as relative to this file. Included files *cannot* 

; include files themselves. 


; [include] 
;files - relative/directory/*.ini 


[program: redis-1xxx] 

command-/smsred/redis-3.0.4/bin/redis-server /smsred/redis-3.0.4/conf/redis-1xxx.conf 
autostart=true 

autorestart=false 

user=smsred 

stdout_logfile=/smsred/redis-3.0.4/log/redis-1xxx.out.log 


stderr_logfile=/smsred/redis-3.0.4/log/redis-1xxx.err.log 
priority=1000 


[program: redis-1xxx] 

command=/smsred/redis-3.0.4/bin/redis-server /smsred/redis-3.0.4/conf/redis-1xxx.conf 
autostart=true 

autorestart=false 

user=smsred 

stdout_logfile=/smsred/redis-3.0.4/log/redis-1xxx.out.log 
stderr_logfile=/smsred/redis-3.0.4/log/redis-1xxx.err.log 

priority=1000 


[program: redis-1xxx] 

command-/smsred/redis-3.0.4/bin/redis-server /smsred/redis-3.0.4/conf/redis-1xxx.conf 
autostart=true 

autorestart=false 

user=smsred 

stdout_logfile=/smsred/redis-3.0.4/log/redis-1xxx.out.log 
stderr_logfile=/smsred/redis-3.0.4/log/redis-1xxx.err.log 

priority=1000 


[program: redis-sentinel] 
command =/smsred/redis-3.0.4/bin/redis-sentinel /smsred/redis-3.0.4/conf/sentinel.conf 


autostart=true 
autorestart=true 
startsecs=3 


5.7.2 使 用 alias 方 便 操 作 


如 果 开 多 实例 ， 那 么 shell 下 进行 操作 的 次 数 会 很 多 ， 因 此 你 需要 一 些 alias 进 行 命令 的 缩短 ， 
这 个 技巧 并 不 高 深 ， 但 是 很 实用 。 一 个 实例 如 下 : 


alias clii='$HOME/redis-3.0.4/bin/redis-cli -a xxx -p 1xx' 
alias cli2='$HOME/redis-3.0.4/bin/redis-cli -a xxx -p 1xx' 
alias cli3-'$HOME/redis-3.0.4/bin/redis-cli -a xxx -p 1xx' 
alias clis='$HOME/redis-3.0.4/bin/redis-cli -p 26379' 


alias sctl-'supervisorctl -c $HOME/redis-3.0.4/conf/redis-supervisord.conf ' 

alias sstart-'supervisord -c $HOME/redis-3.0.4/conf/redis-supervisord.conf' 

alias see-'pdsh -R ssh -w MSMSRED[1-3],PSMSRED1,PSMSAPP1 "/usr/local/bin/supervisorctl 
-c /smsred/redis-3.0.4/conf/redis-supervisord.conf status "' 


5.7.3 使 用 pdsh/pdcp 进 行 多 机 器 操作 


Pdsh/pdcp 是 一 个 python ssh 多 机 操作 的 工具 ， 在 部 署 中 可 以 采用 它 进行 多 机 的 同一 操作 批量 
执行 ， 注 意 编译 的 时 候 把 ssh 编译 进去 ， 在 执行 时 指定 ssh 模 式 ， 一 个 查看 多 机 supervisord 管 
理 进程 的 命令 实例 如 下 : 


pdsh -R ssh -w MSMSRED[1-3],PSMSRED1,PSMSAPP1 "/usr/local/bin/supervisorctl -c /smsred 
/redis-3.0.4/conf/redis-supervisord.conf status " 


= 
AS 
Pu 
zx 
[s 
m 


机 器 已 经 建立 了 ssh 互 信 。 建 立 互 信 可 以 用 下 边 这 个 脚本 


#!/bin/bash 
#2015-12-08 
#author gnuhpc 


expect -c "Spawn ssh-keygen -t rsa 
expect { 

N";NU {send \"\r\"; exp_continue} 
\"*(y/n)*\" {send \"y\r\"; exp continue? 
} 


for p in $(cat ip.cfg) 

do 

ip-$(echo "$p"|cut -f1 -d":") 
username=$(echo "$p"|cut -f2 -d":") 
password=$(echo "$p"|cut -f3 -d":") 
echo $password 


expect -c " 

spawn ssh-copy-id ${username}@$ip 

expect { 

\"*yes/no*\" (send \"yes\r\"; exp continue) 
N'*(y/n)*N" {send \"y\r\"; exp continue? 
\"*password*\" (send \"$password\r\"; exp continue? 
\"*Password*\" {send \"$password\r\"; exp continue) 


} 


expect -c " 

spawn ssh ${username}@$ip "hostname" 

expect { 

\"*yes/no*\" (send \"yes\r\"; exp continue) 
\"*password*\" {send \"$password\r\"; exp continue) 
N'*(y/n)*N" {send \"y\r\"; exp_continue} 
\"*Password*\" {send \"$password\r\"; } 


done 


指定 一 个 ip.cfg， 里 面 的 格式 为 : IP (主机 名 也 行 ， 只 要 能 解析 ) :用 户 名 :密码 例如 : 


XXXx.139:username: password 
XXXX.140:username:password 
XXXX.141:username:password 
XXXX.142:username: password 
XXXx.137:username: password 


5.7.4 使 用 脚本 进行 sentinel 配 置 文件 的 备份 


Sentinel 在 启动 、 切 换 时 会 对 config 文 件 进行 rewrite， 在 上 线 前 或 者 茶 些 手动 维护 后 你 可 能 希 
望 把 conf 文 件 都 变 为 最 初 ， 当 系统 中 有 很 多 redis 实 例 时 ， 这 个 手工 操作 会 让 人 疯 掉 ， 那 不 妨 
写 个 脚本 在 配置 好 sentinel 和 redis 后 不 启动 先 备份 一 下 ， 测 试 完 毕 后 再 恢复 。 


一 个 简单 的 备份 脚本 如 下 : 


backupconf.sh 

#!/bin/bash 

for i in “find -/redis-3.0.4/conf -name *.conf^ 
do 

cp -v $i ${i}.bak 

done 


恢复 脚本 : 


recoveryconf.sh 
#!/bin/bash 
for i in "find -/redis-3.0.4/conf -name *.conf.bak~ 
do 
cp -v $i ${i%.*} 
done 


3.1.1 启动 redis 


$ redis-server redis.conf 


常见 选项 : ./redis-server (run the server with default conf) ./redis-server /etc/redis/6379.conf 
Jredis-server --port 7777 ./redis-server --port 7777 --slaveof 127.0.0.1 8888 ./redis-server 
letc/myredis.conf --loglevel verbose 


3.1.2 È Ziredis-sentinel 


./redis-server /etc/sentinel.conf -sentinel 
./redis-sentinel /etc/sentinel.conf 


部 署 后 可 以 使 用 sstart 对 redis 和 sentinel 进 行 拉 起 ， 使 用 sctl| 进 行 supervisorctl 的 控制 。 (两 个 


alias ) 


停止 


Ej 
3.2 Pb 
redis-cli shutdown 


sentine| 方 法 一 样 ， 只 是 需要 执行 Sentinel 的 连接 端口 


注意 : 正确 关闭 服务 器 方式 是 redis-cli shutdown 或 者 kill， 都 会 graceful shutdown， 保 
证 写 RDB 文 件 以 及 将 AOF 文 件 fsync 到 磁盘 ， 不 会 丢失 数据 。 如果 是 粗暴 的 Ctrl+C， 或 者 
kill -9 就 可 能 丢失 。 如 果 有 配置 save， 还 希望 在 shutdown 时 进行 RDB 写 入 ， 那 么 请 使 用 
DA o 

ép 


shutdown save*r 4 
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3.3 查看 和 修改 配置 


看 : 


config get : 获取 服务 器 配置 信息 。 
redis 127.0.0.1:6379» config get dir 
config get *: 查看 所 有 配置 


临时 设置 : config set 
永久 设置 : config rewrite， 将 目前 服务 器 的 参数 配置 写 入 redis conf. 


XO, 4-48 
3.4 批量 执行 操作 
使 用 telnet 也 可 以 连接 redis-server。 并 且 在 脚本 中 使 用 nc 命令 进行 redis 操 作 也 是 很 有 效 的 : 


gnuhpc@gnuhpc:~$ (echo -en "ping\r\nset key abc\r\nget key\r\n";sleep 1) | nc 127.0.0. 
1 6379 

*PONG 

+0K 

$3 

abc 


另 一 个 方式 是 使 用 pipeline : 


在 一 个 脚本 中 批量 执行 多 个 写 入 操作 : 

先 把 插入 操作 放 入 操作 文本 Insert .dat : 

set a b 

set 12 

set hw 

set f u 

然后 执行 命令 :cat insert.bat | ./redis-cli --pipe， 或 者 如 下 脚本 : 
#!/bin/sh 

host-$1 

port=$ ; 

password-$3 

cat insert.dat | ./redis-cli -h $host -p $port -a $password --pipe 


3.5 选择 数据 库 


select db-index 


默认 连接 的 数据 库 所 有 是 0, 默 认 数 据 库 数 是 16 个 。 返 回 1 表 示 成 功 ，0 失 败 


6 清空 数据 库 


flushdb 


删除 当前 选择 数据 库 中 的 所 有 key。 生 产 上 已 经 禁止 。 


flushall 


删除 所 有 的 数据 库 。 生 产 上 已 经 禁止 。 
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rename -command 


例如 : rename-command FLUSHALL "" » if #8 ° 


3.8 执行 lua 脚 本 


--eval 


例如 : redis-cli --eval myscript.lua key1 key2 , arg1 arg2 arg3 


3.9 设置 密码 


config set requirepass [password] 


3.10 3$ uk KAZ 


auth password 


3.11 性 能 测 试 命令 


redis-benchmark -q -r 100000 -n 100000 -c 50 


比如 : 开 100 条 线程 (上 默认 50)，SET 177 X (key4&0-1-T- 77 Al ha pu) > key K21F $ > value 
256 字 节 的 数据 。-r 指 的 是 使 用 随机 key 的 范围 。 


redis-benchmark -t SET -c 100 -n 10000000 -r 10000000 -d 256 


也 可 以 直接 执行 lua 脚 本 模拟 客户 端 


redis-benchmark -n 100000 -q script load "redis.call('set','foo','bar')" 


注意 : Redis-Benchmark 的 测试 结果 提供 了 一 acis 的 Redis-Server 不 会 运行 在 非 正 常 状 
态 下 的 基准 点 ， 但 是 你 永远 不 要 把 它 作为 一 实 的 “压力 测试 ”。 压 力 测 试 需要 反应 出 应 用 的 
运行 方式 ， 并 且 需 ee 0 dae 


Rede Pene manta n TUER 数据 ， 例 如 下 列 测试 场景 ， 我 们 对 某 个 系统 常用 redis 
API 进 行 测试 ， ed Anger 、\hset 的 过 程 ， 我 们 首先 利用 rand_int 进 行 随机 整数 获 
取 ， 对 myhash 这 个 key 进 行 测试 数据 灌 入 (这 也 就 测试 了 hset 性 能 ) ， 然 后 再 对 其 进行 hget : 


MSMSAPP1:/tmp # ./redis-benchmark -a pass -h 40.XXX.XXX.141 -p 16XXXX -r 500000 -n 500 
000 hset myhash rand int rand int 








====== hset myhash rand int rand int ====== 
500000 requests completed in 18.74 seconds 

50 parallel clients 

3 bytes payload 

keep alive: 1 


23.53% <= 1 milliseconds 
95.84% <= 2 milliseconds 
97.62% <= 3 milliseconds 
97.71% <= 4 milliseconds 
97.80% <= 5 milliseconds 
97.84% <= 6 milliseconds 
97.84% <= 8 milliseconds 
97.85% <= 9 milliseconds 
97.85% <= 10 milliseconds 
97.85% <= 11 milliseconds 


97.86% <= 12 milliseconds 
97.88% <= 13 milliseconds 
97.90% <= 14 milliseconds 
97.92% <= 15 milliseconds 


97.94% <= 16 milliseconds 
97.94% <= 20 milliseconds 
97.95% <= 21 milliseconds 
97.95% <= 22 milliseconds 
97.99% <= 23 milliseconds 
98.01% <= 24 milliseconds 
98.11% <= 25 milliseconds 
98.43% <= 26 milliseconds 
98.85% <= 27 milliseconds 
99.17% <= 28 milliseconds 
99.43% <= 29 milliseconds 
99.54% <= 30 milliseconds 
99.68% <= 31 milliseconds 
99.77% <= 32 milliseconds 
99.81% <= 33 milliseconds 
99.85% <= 34 milliseconds 
99.85% <= 35 milliseconds 
99.87% <= 36 milliseconds 
99.88% <= 37 milliseconds 
99.89% <= 38 milliseconds 
99.90% <= 39 milliseconds 
99.90% <= 40 milliseconds 
99.91% <= 44 milliseconds 
99.91% <= 45 milliseconds 
99.91% <= 46 milliseconds 
99.92% <= 47 milliseconds 
99.92% <= 48 milliseconds 
99.93% <= 49 milliseconds 
99.93% <= 50 milliseconds 
99.95% <= 51 milliseconds 
99.96% <= 52 milliseconds 
99.96% <= 53 milliseconds 
99.97% <= 54 milliseconds 
99.98% <= 55 milliseconds 
100.00% <= 55 milliseconds 
26679.47 requests per second 


MSMSAPP1:/tmp # ./redis-benchmark -a pass 40.XXX.XXX.141 -p 16XXXX -r 500000 -n 500000 
hget myhash rand int rand int 





====== hget myhash rand int rand int ====== 





500000 requests completed in 13.83 seconds 
50 parallel clients 

3 bytes payload 

keep alive: 1 


74.29% <= 1 milliseconds 
98.29% <= 2 milliseconds 
98.45% <= 3 milliseconds 
98.45% <= 4 milliseconds 
98.45% <= 5 milliseconds 


98.46% <= 11 milliseconds 
98.46% <= 12 milliseconds 
98.48% <= 15 milliseconds 


98.49% <= 16 milliseconds 
98.50% <= 22 milliseconds 
98.50% <= 23 milliseconds 
98.57% <= 24 milliseconds 
98.81% <= 25 milliseconds 
99.16% <= 26 milliseconds 
99.45% <= 27 milliseconds 
99.71% <= 28 milliseconds 
99.84% <= 29 milliseconds 
99.91% <= 30 milliseconds 
99.94% <= 31 milliseconds 
99.94% <= 32 milliseconds 
99.95% <= 33 milliseconds 
99.96% <= 34 milliseconds 
99.96% <= 44 milliseconds 
99.96% <= 45 milliseconds 
99.97% <= 49 milliseconds 
99.97% <= 50 milliseconds 
99.99% <= 55 milliseconds 
100.00% <= 56 milliseconds 
100.00% <= 56 milliseconds 
36145.45 requests per second 


注意 : 上 述 测试 由 于 是 取 的 随机 值 ， 因 此 hget 可 能 没有 命中 ， 同 时 payload 比 较 小 ， 所 以 这 是 
个 极限 性 能 。 


另外 ， 还 有 一 个 工具 是 RedisLab 放 出 来 的 ， 我 并 没有 进行 测试 参 
X, : https://github.com/RedisLabs/memtier_benchmark 


3.12 Redis-cli 命 其 他 操作 


1. echo : 在 命令 行 打 印 一 些 内 容 


redis 127.0.0.1:6379> echo HongWan "HongWan" 


2. quit : 退出 连接 。 

redis 127.0.0.1:6379> quit 

3. -X 选 项 从 标准 输入 (stdin) 读 取 最 后 一 个 参数 。 比如 从 管道 
中 读 取 输入 : 


echo -en "chen.qun" | redis-cli -x set name 


4. -r -i 


选项 重复 执行 一 个 命令 指定 的 次 数 。-i 设置 命令 执行 的 间隔 。 比如 查看 redis 每 秒 执行 的 
commands (qps) redis-cli -r 100 -i 1 info stats | grep instantaneous ops per sec 这 个 选项 
在 编写 一 些 脚 本 时 非常 有 用 


. -C : 开户 reidis _ cluster 模式， 连接 redis cluster? 点 时 候 使 
6. --rdb : 获取 指定 redis 实 例 的 rdb 文 件 ,保存 到 本 地 。 


redis-cli -h 192.168.44.16 -p 6379 --rdb 6379.rdb 


T. --slave 

模拟 slave 从 master 上 接收 到 的 commands。slave 上 接收 到 的 commands 都 是 Update 操作 ， 记 
录 数 据 的 更 新 行为 。 

8. --pipe 


这 个 一 个 非常 有 用 的 参数 。 发 送 原始 的 redis protocl 格 式 数据 到 服务 器 端 执行 。 比 如 下 面 的 形 
式 的 数据 (linux 服 务 器 上 需要 用 Unix2dos 转 化 成 dos 文 件 ) 。 linux 下 默认 的 换行 是 
\n,windows 系 统 的 换行 符 是 \\n，redis 使 用 的 是 \\n. echo -en 


™3\r\n$3\n\nSET\r\n$3\r\nkey\r\n$5\r\nvalue\r\n' | redis-cli --pipe 


9. -a 


如 果 开 启 了 requirepass， 那 么 你 如 果 希 望 调用 或 者 自己 编写 一 些 外 部 脚本 通过 redis-cli 进 行 操 
作 或 者 监控 redis， 那 么 这 个 选项 可 以 让 你 不 用 再 手动 输入 auth。 这 个 选项 很 普遍 ， 但 是 往往 
被 人 忽视 。 


6.13 持久 化 与 备份 恢复 


3.13.1 RDB 相 关 操 作 


BGSAVE : 后 人 台子 进程 进行 RDB 持 久 化 SAVE : 主 进程 进行 RDB， 生 产 环境 千 万 别 用 ， 服 务 
器 将 无 法 响应 任何 操作 。 LASTSAVE : 返回 上 一 次 成 功 SAVE 的 Unix 时 间 


动态 关闭 RDB : 


redis-cli config set save "" 


动态 设置 RDB : 


redis-cli config set save "900 1" 


永久 关闭 RDB : 


sed -e '/save/ s/\#*/#/' -i /etc/redis/redis.conf 


永久 设置 RDB : 


在 redis.conf 中 设置 Save 选 项 


查看 RDB 是 否 打 开 : 


redis-cli config get save 


空 的 即 是 关闭 ， 有 数字 的 都 是 打开 的 。 


3.13.2 AOF 18 X4& 4E 


BGREWRITEAOF 


在 后 台 执 行 一 个 AOF 文 件 重 写 操作 


动态 关闭 AOF : 


redis-cli config set appendonly no 


动态 打开 AOF : 


redis-cli config set appendonly yes 


永久 关闭 AOF : 


sed -e '/appendonly/ s/^#*/#/' -i /etc/redis/redis.conf 


永久 打开 AOF : 


将 appendonly yes 设 置 在 redis.conf 中 


(默认 是 关闭 的 ) 


3.13.3 备份 


对 于 RDB 和 AOF， 都 是 直接 拷贝 文件 即 可 ， 可 以 设 定 crontab 进 行 定时 备份 : cp 
/var/lib/redis/dump.rdb /somewhere/safe/dump.$(date +%Y%m%d%H%M).rdb 


3.13.4 恢复 


如 果 只 使 用 了 RDB， 则 首先 将 redis-server 停 掉 ， 删 除 dump.rdb， 最 后 将 备份 的 dump.rdb 文 件 
拷贝 回 data 目 录 并 修改 相关 属 主 保证 其 属 主 和 [redis-server 启 动用 户 一 致 ， 然 后 启动 redis- 
server ° 


如 果 是 RDB+AOF 的 持久 化 ， 只 需要 将 aof 文 件 放 入 data 目 i 启动 redis-server， 查 看 是 否 恢 
复 ， 如 无 法 恢复 则 应 该 将 aof 关 闭 后 重启 ，redis 就 会 从 rdb 进 行 恢 复 了 ， 随 后 调用 命令 
BGREWRITEAOF 进 行 AOF 文 件 写 入 ， is ae 0 后 一 个 新 的 aof 文 
件 就 生成 了 ， 此 时 再 将 配置 文件 的 aof 打 开 ， 再 次 重启 redis-server 就 可 以 恢复 了 。 注 意 先 不 要 
将 dump.rdb 放 入 data 目 录 ， 否 则 会 因为 aof 文 件 万 一 不 可 用 ， 则 rdb 也 不 会 被 恢复 进 内 存 ， 此 
时 如 果 有 新 的 请 求 进来 后 则 原先 的 rdb 文 件 被 重 写 


如 果 只 配置 了 AOF， 重 启 时 加 载 AOF 文 件 恢复 数据 。 


恢复 速度 参见 新 浪 的 测试 结果 : 
EN NE 
2.04 0 
A 0.65 19 
LI 508 
194 


rewrite aof rewrite aof 





这 个 结果 是 可 信 的 ， 在 一 台 SSD、4 个 CPU 的 虚拟 机 上 测试 为 28.3G/s. 


检查 修复 AOF 文 件 : 


redis-check-aof data/appendonly.aof 
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7. 数据 迁移 


4.1 将 key 从 当前 数据 库 移动 到 指定 数据 库 


返回 1 成 功 。0 如 果 key 不 存在 ， 或 者 已 经 在 指定 数据 库 中 


8. 数据 迁移 


8.1 一 般 处 理 流程 


6.1.1 探测 服务 是 否 可 用 


127.0.0.1:6379> ping 


返回 PONG 说 明正 常 


6.1.2 探测 服务 延迟 


redis-cli --latency 显示 的 单位 是 milliseconds， 作 为 参考 ， 千 光 网 一 跳 一 般 延 迟 为 0.16ms 左 右 


6.1.3 监控 正在 请 求 执行 的 命令 在 cli 下 执行 monitor， 生 产 环 境 懂 用 。 


6.1.4 查看 统计 信息 


Mrds:6379> info 


在 cli 下 执行 info。 


info Replication 


只 看 其 中 一 部 分 。 


config resetstat 


重新 统计 。 


# Server 

redis version:2.8.19 ###redis 版 本 号 

redis git shai1:00000000 ###git SHA1 
redis git dirty:O ###git dirty flag 

redis build id:78796c63e58b72dc 

redis mode:standalone  ”###redis 运 行 模式 

os:Linux 2.6.32-431.e16.x86 64 x86 64  ” ###0S 版 本 号 
arch bits:64  ###64 位 架构 

multiplexing api:epoll ### 调 用 epoll 算 法 
gcc_version:4.4.7  ”###gcc 版 本 号 

process id:25899 ”### 服 务 器 进程 PID 

run id:eae356aci1098c13b68f2b00fd7eic9f93b1c6a2c ”##Redis 的 随机 标识 符 ( 用 于 sentinel 和 集群 ) 
tcp port:6379 ”###Redis 监 听 的 端口 号 
uptime in seconds:6419 ###Redis 运 行 时 长 (S$ 为 单位 ) 
uptime in days:9 ###Redis 运 行 时 长 (天 为 单位 ) 

hz:10 

lru clock:10737922  ### 以 分 钟 为 单位 的 自 增 时 钟 ,用 于 LRU 管 理 
config file:/etc/redis/redis.conf  ###redis 配 置 文件 


# Clients 
connected clients:1 ”### 已 连接 客户 端的 数量 (不 包括 通过 从 属 服务 器 连接 的 客户 端 ) 这 个 参数 也 要 一 定 关 
注 ， 有 般 升 和 明显 下 降 时 都 会 有 问题 。 即 使 不 操作 

client longest output list:O  ”### 当 前 连接 的 客户 端 中 最 长 的 输出 列表 

client biggest input buf:O  ”### 当 前 连接 的 客户 端 中 最 大 的 。 输 出 缓存 

blocked clients:O #1## 正 在 等 竺 阻塞 命令 (BLPOP、BRPOP、BRPOPLPUSH) 的 客户 端的 数量 需 监控 


# Memory 

used memory:2281560 ###%® Redis 分 配器 分 配 的 内 存 总 量 ， 以 字 节 (byte) 为 单位 

used memory human:2.18M 大 ## 以 更 友好 的 格式 输出 redis 占 用 的 内 存 

Used memory rss:2699264  ” ### 从 操作 系统 的 角度 ， 返 回 Redis 已 分 配 的 内 存 总 量 (俗称 常 驻 集 大 小 ) oR 
个 值 和 top ^ ps 等 命令 的 输出 一 致 ， 包 含 了 used_memory 和 内 存 碎片 。 

used memory peak:22141272 ### Redis 的 内 存 消 耗 峰值 〈 以 字 节 为 单位 ) 

used memory peak human:21.12M  #### 以 更 友好 的 格式 输出 redis 峰 值 内 存 占用 

used memory 1lua:35840 ###LUA 引 擎 所 使 用 的 内 存 大 小 


mem fragmentation ratio:1.18 ### =used_memory_rss /used memory 这 两 个 参数 都 包含 保存 用 户 
Kk-v 数 据 的 内 存 和 redis 内 部 不 同 数据 结构 需要 占用 的 内 存 ， 并 且 RSS 指 的 是 包含 操作 系统 给 rFedis 实 例 分 配 的 内 存 ， 
这 里 面 还 包含 不 连续 分 配 所 带 来 的 开销 。 因 此 在 理想 情况 下 ， used memory rss 的 值 应 该 只 比 used memory 
稍微 高 一 点 儿 。 当 rss > used ， 且 两 者 的 值 相 差 较 大 时 ， 表 示 存 在 (内 部 或 外 部 的 ) 内 存 碎片 。 内 存 碎片 的 比率 
可 以 通过 mem fragmentation ratio 的 值 看 出 。 当 used > rss 时 ， 表 示 Redis 的 部 分 内 存 被 操作 系统 换 
出 到 交换 空间 了 ， 在 这 种 情况 下 ， du 能 会 产生 明显 的 延迟 。 可 以 说 这 个 值 大 于 1.5 或 者 小 于 1 都 是 有 问题 的 。 当 大 
于 1.5 的 时 候 需 要 择机 进行 服务 器 重启 。 当 小 于 1 的 时 候 需要 对 redis 进 行 数据 清理 
mem_allocator:jemalloc-3.6.0 





# Persistence 

loading:0 ### 记 录 服 务 器 是 否 正 在 载 入 持久 化 文件 ，1 为 正在 加 载 

rdb changes since last save:0  ”### 距 离 最 近 一 次 成 功 创建 持久 化 文件 之 后 ， 产 生 了 多 少 次 修改 数据 集 的 

操作 

rdb_bgsave_in_progress:0 ”### 记 录 了 服务 器 是 否 正 在 创建 RDB 文件 ，1 为 正在 进行 

rdb last save time:1420023749 4### 最 近 一 次 成 功 创建 RDB 文件 的 UNIX HAR 

rdb last bgsave status:ok ”## 最 近 一 次 创建 RDB 文件 的 结果 是 成 功 还 是 失败 , 失败 标识 为 err， 这 个 时 

候 写 入 redis 的 操作 可 能 会 停止 ， 因 为 默认 stop-writes-on-bgsave-error 是 开启 的 ， 这 个 时 候 如 果 需 要 尽快 恢 
复写 操作 ， 可 以 手工 将 这 个 选项 设置 为 no。 

rdb last bgsave time sec:0 ### 最 近 一 次 创建 RDB 文件 耗费 的 秒 数 

rdb current bgsave time sec:-4 ### 如 果 服 务 器 正在 创建 RDB 文件 ， 那 么 这 个 域 记 录 的 就 是 当前 的 创建 

操作 已 经 耗费 的 秒 数 

aof enabled:1 ###AOF 是 否 处 于 打开 状态 ，1 为 启用 

aof rewrite in progress:O0  ” ### 服 务 器 是 否 正在 创建 AOF 文件 

aof_rewrite_scheduled:0 ###RDB 文件 创建 完毕 之 后 ， 是 否 需要 执行 预约 的 AOF 重 写 操作 (因为 在 RDB 时 

aof 的 rewrite 会 被 阻塞 一 直到 RDB 结 束 ) 

aof last rewrite time sec:-1 #### 最 近 一 次 创建 AOF 文件 耗费 的 时 长 

aof current rewrite time sec:-1 ### 如 果 服 务 器 正在 创建 AOF 文件 ， 那 么 这 个 域 记 录 的 就 是 当前 的 创建 

操作 已 经 耗费 的 秒 数 

aof last bgrewrite status:ok  ### 最 近 一 次 创建 AOF 文件 的 结果 是 成 功 还 是 失败 

aof last write status:ok 

aof current size:176265 #H##AOF 文件 目前 的 大 小 

aof base size:176265 ### 服 务 器 启动 时 或 者 AOF 重 写 最 近 一 次 执行 之 后 ，AOF 文件 的 大 小 

aof_pending_rewrite:0 ###26% AOF 重 写 操作 在 等 待 RDB 文件 创建 完毕 之 后 执行 

aof buffer length:O ###AOF 缓冲 区 的 大 小 

aof rewrite buffer length:O ###AOF 重 写 缓冲 区 的 大 小 

aof_pending_bio_fsync:0 ### 后 人 台 I/0 队列 里 面 ， 等 待 执行 的 fsync 调用 数量 

aof_delayed_fsync: 9### 被 延迟 的 fsync 调用 数量 

loading start time:1441769386 loading #@ sbH Is 

loading total bytes:1787767808 ”loading 需 要 加 载 数据 量 

loading loaded bytes:1587418182 已 经 加 载 的 数据 量 

loading_loaded_perc:88.79 加 载 百 分 比 

loading eta seconds:7 ”剩余 时 间 





# Stats 

total connections received:8466 “大 ## 服 务 器 已 接受 的 连接 请 求 数量 ， 注 意 这 是 个 累计 值 。 

total commands processed:900668 ” ### 服 务 器 已 执行 的 命令 数量 ， 这 个 数值 需要 持续 监控 ， 如 果 在 一 段 时 
间 内 出 现 大 范围 波动 说 明 系 统 要 么 出 现 大 量 请 求 ， 要 么 出 现 执 行 缓慢 的 操作 。 

instantaneous_ops_per_sec:1 ”### 服 务 器 每 秒 钟 执行 的 命令 数量 

total net input bytes:82724170 

total net output bytes:39509080 

instantaneous input kbps:0.07 

instantaneous output kbps:0.02 

rejected connections:0 ### 因 为 最 大 客户 端 数 量 限制 而 被 拒绝 的 连接 请 求 数量 


sync full:2 

sync partial ok:0 

sync partial err:0 

expired keys:O ”### 因 为 过 期 而 被 自动 删除 的 数据 库 键 数量 

evicted_keys:0 ”### 因 为 最 大 内 存 容量 限制 而 被 驱逐 (evict) 的 键 数量 。 这 个 数值 如 果 不 是 9 则 说 明 maxmemo 
ry 被 触发 ， 并 且 evicted_keys 一 直 大 于 0Q， 则 系统 的 latency 增 加 ， 此 时 可 以 临时 提高 最 大 内 存 ， 但 这 只 是 临 
时 措施 ， 需 要 从 应 用 着 手 分 析 。 

keyspace_hits:0 ### 查 找 数据 库 键 成 功 的 次 数 。 可 以 计算 命中 举 

keyspace misses:500000 ” ### 查 找 数据 库 键 失败 的 次 数 。 

pubsub channels:0 4### 目 前 被 订阅 的 频道 数量 

pubsub patterns:0 4### 目 前 被 订阅 的 模式 数量 

latest fork usec:402 ### 最 近 一 次 fork() 操作 耗费 的 毫秒 数 


# Replication 

role:master ### 如 果 当 前 服务 器 没有 在 复制 任何 其 他 服务 器 ， 那 么 这 个 域 的 值 就 是 master ; 否则 的 话 ， 这 
个 域 的 值 就 是 slave 。 注 意 ， 在 创建 复制 链 的 时 候 ， 一 个 从 服务 器 也 可 能 是 另 一 个 服务 器 的 主 服务 器 
connected slaves:2 1HHE2 4 slaves 

slave0:ip-192.168.65.130,port-6379, state=online, of fset=1639, lag=1 
slavei:ip=192.168.65.129, port=6379, state=online, of fset=1639, lag=0 
master_repl_offset:1639 

repl_backlog_active:1 

repl_backlog_size:1048576 

repl backlog first byte offset:2 

repl backlog histlen:1638 


# CPU 

used cpu sys:41.87 ###Redis 服务 器 耗费 的 系统 CPU 
used cpu user:17.82 ###Redis 服务 器 耗费 的 用 户 CPU 
used cpu sys children:0.01 ### 后 台 进 程 耗费 的 系统 CPU 
used cpu user children:0.01  ### 后 侣 进程 耗费 的 用 户 CPU 


# Keyspace 
db@:keys=3101,expires=0,avg_ttl=0 ###keyspace 部 分 记录 了 数据 库 相关 的 统计 信息 ， 比 如 数据 库 的 键 
数量 、 数 据 库 过 期 键 数量 等 。 对 于 每 个 数据 库 ， 这 个 部 分 都 会 添加 一 行 此 信息 


6.1.5 获取 慢 查 询 


SLOWLOG GET 10 


结果 为 查询 ID、 发 生 时 间 、 运 行 时 长 和 原 命 令 默认 10 毫 秒 ， 软 认 只 保留 最 后 的 128 条 。 单 线 


程 的 模型 下 ， 一 个 请 求 占 掉 10 毫 秒 是 件 大 事情 ， 注 意 设置 和 显示 的 单位 为 微 秒 ， 注 意 
间 是 不 包含 网 络 延 迟 的 。 


slowlog get 


获取 慢 查 询 日 志 


slowlog len 


获取 慢 查 询 日 志 条 数 


slowlog reset 


这 个 时 


client list 


列 出 所 有 连接 


client kill 


杀 死 某 个 连接 ， 例 如 CLIENT KILL 127.0.0.1:43501 


client getname # 


获取 连接 的 名 称 默认 nil 


client setname "名 称 " 


设置 连接 名 称 ,便于 调试 


6.1.7 查看 日 志 


日 志 位 置 在 /redis/log 下 ，redis.log 为 redis 主 日 志 ，sentinel.log 为 sentinel 监 控 日 志 。 


6.2 并 发 延迟 检查 


top 看 到 单个 CPU 100% 时 ， 就 是 重 直 扩展 的 时 候 了 。 如 果 需 要 让 CPU 使 用 率 最 大 化 ， 可 以 配 
置 Redis 实 例 数 对 应 CPU 数 , Redis 实 例 数 对 应 端口 数 (8 核 Cpu, 8 个 实例 , 8 个 端口 ), 以 提高 3 

发 。 单 机 测试 时 , 单条 数据 在 200 字 节 , 测试 的 结果 为 8~9 万 tps。 (REM) 。 另外 ， 对 于 命 
令 的 复杂 度 一 定 要 关注 。 


6.2.1 检查 CPU 情况 


mpstat -P ALL 1 


6.2.2 检查 网 络 情况 


可 以 在 系统 不 繁忙 或 者 临时 下 线 前 检测 客户 端 和 server 或 者 proxy 的 带宽 : 


1) 使 用 iperf -s 命令 将 Iperf 启动 为 server 模式 : 


iperf -s 





Server listening on TCP port 5001 
TCP window size: 8.00 KByte (default) 





2) 启 动 客户 端 ， 向 IP 为 10.230.48.65 的 主机 发 出 TCP 测 试 ， 并 每 2 秒 返 回 一 次 测试 结果 ， 以 
Mbytes/sec 为 单位 显示 测试 结果 : 


iperf -c 10.230.48.65 -f M -i 2 


6.2.3 检查 系统 情况 


着 重 检查 探测 服务 延迟 、 监 控 正 在 请 求 执行 的 命令 、 获 取 慢 查询 


6.2.4 检查 连接 数 


查看 info 里 面 的 total_connections_received， 如 果 该 值 不 断 升 高 ， 则 需要 修改 应 用 ， 采 用 连接 
池 方 式 进 行 ， 因 为 频繁 关闭 再 创建 连接 redis 的 开销 很 大 。 


6.2.5 检查 持久 化 


RDB 的 时 间 : latest_fork_usec:936 上 次 导出 rdb 快 照 ,持久 化 花费 ， 微 秒 。 检查 是 否 有 人 使 
用 了 SAVE ° 


6.2.6 检查 命令 执行 情况 


INFO commandstats 


查看 命令 执行 了 多 少 次 ， 执 行 命 令 所 耗费 的 毫秒 数 (每 个 命令 的 总 时 间 和 平均 时 间 ) 


8.3 内 存 检查 


8.3.4 系统 内 存 查 看 


script/ 下 的 memstat.sh 或 者 ps_mem.py 都 可 以 查看 系统 的 内 存 情 况 ， 两 个 工具 都 需要 root 权 
FR. o 


8.3.2 系统 swap 内 存 查看 


#!/bin/bash 


# Get current swap usage for all running processes 

# Erik Ljungstrom 27/05/2011 

# Modified by Mikko Rantalainen 2012-08-09 

# Pipe the output to "sort -nk3" to get sorted output 
# Modified by Marc Methot 2014-09-18 

# removed the need for sudo 

SUM=0 

OVERALL=0 


for DIR in “find /proc/ -maxdepth 1 -type d -regex "^/proc/[0-9]-"" 
do 
PID= echo $DIR | cut -d / -f 3^ 
PROGNAME= ps -p $PID -o comm --no-headers^ 
for SWAP in ‘grep VmSwap $DIR/status 2>/dev/null | awk '{ print $2 } 
do 
let SUM=$SUM+$SWAP 
done 
if (( $SUM > © )); then 
echo "PID-$PID swapped $SUM KB ($PROGNAME)" 
fi 
let OVERALL=$0VERALL+$SUM 
SUM=0 
done 
echo "Overall swap used: $OVERALL KB" 


8.3.3 info 查 看 内 存 


used memory:859192 数据 结构 的 空间 used memory rss:7634944 实 占 空 间 
mem fragmentation ratio:8.89 前 2 者 的 比例 ,1.N 为 佳 ,如 果 此 值 过 大 ,说 明 redis 的 内 存 的 碎片 化 
严重 ,可 以 导出 再 导入 一 次 . 


8.3.4 dump.rdb x FR AGRE (rdb- 
tool) 


# rdb -c memory ./dump.rdb > redis memory report.csv 
# sort -t, -k4nr redis memory report.csv 


8.3.5 query 在 线 分 析 


redis-cli MONITOR | head -n 5000 | ./redis-faina.py 


8.3.6 内 存 抽 样 分 析 


/redis/script/redis-sampler.rb 127.0.0.1 6379 0 10000 
/redis/script/redis-audit.rb 127.0.0.1 6379 © 10000 


8.3.7 统计 生产 上 比较 大 的 key 


./redis-cli --bigkeys 


对 redis 中 的 key 进 行 采 样 ， 寻 找 较 大 的 keys。 是 用 的 是 Scan 方式 ， 不 用 担心 会 阻塞 redis 很 长 
时 间 不 能 处 理 其 他 的 请 求 。 执 行 的 结果 可 以 用 于 分 析 redis 的 内 存 的 只 用 状态 ， 每 种 类 型 key 的 
平均 大 小 。 


` 


8.3.8 查看 key 内 部 结构 和 编码 等 信息 


debug object 


查看 一 个 key 内 部 信息 ， 比 如 refcount、encoding、serializedlength 等 ， 结 果 如 下 Value 
at:0x7f21b9479850 refcount:1 encoding:raw serializedlength:6 Iru:8462202 
Iru seconds idle:215 


8.3.9 Rss?É Ze » AG PE 1$ Jm 
此 时 可 以 选择 时 间 进 行 redis 服 务 器 的 重新 启动 ， 并 且 注 意 在 rSs 突 然 降 低 观 察 是 否 swap 被 使 
用 ， 以 确定 并 非 是 因为 sSwap 而 导致 的 rss 降 低 。 


一 个 典型 的 例子 是 : http://grokbase.com/t/gg/redis-db/14ag5n9qhv/redis-memory- 
fragmentation-ratio-reached-5000 


9. 测试 万 法 


7.1 模拟 oom 


redis-cli debug oom 


redis 直 接 退 出 。 


7.2 模拟 宕 机 


redis-cli debug segfault 


7.3 模拟 hang 


redis-cli -p 6379 DEBUG sleep 30 


7.4 快速 产生 测试 数据 


测试 利器 ， 快 速 产 生 大 量 的 key 


127.0.0.1:6379» debug populate 10000 
OK 

127.0.0.1:6379» dbsize 

(integer) 10000 


7.5 模拟 RDB load 情 形 


debug reload 


Save 当前 的 rdb 文 件 ， 并 清空 当前 数据 库 ， 重 新 加 载 rdb， 加 载 与 启动 时 加 载 类 似 ， 加 载 过 程 
中 只 能 服务 部 分 只 读 请 求 〈 比 如 info、ping 等 ) : rdbSave(); emptyDb(); rdbLoad(); 


7.6 模拟 AOF 加 载 情 形 


debug loadaof 


清空 当前 数据 库 ， 重 新 从 aof 文 件 里 加 载 数据 库 emptyDb(); loadAppendOnlyFile(); 


9. Redis £ 4 17] i 


Redis 是 一 个 弱 安 全 的 组 件 ， 只 有 一 个 简单 的 明文 密码 ， 因 此 在 保护 上 需要 对 其 他 多 方面 的 措 
施 ， 另 外 ， 很 多 所 谓 安全 问题 不 是 redis 本 身 造成 的 ， 而 是 误 用 的 结果 。 


9.1 Shell 提 权 问 题 


问题 报告 : http://drops.wooyun.org/papers/3062 


问题 分 析 : Redis 安全 模型 的 观念 是 :“ 请 不 要 将 Redis 暴 露 在 公开 网 络 中 , 因为 让 不 受信 任 的 客 
户 接 触 到 Redis 是 非常 危险 的 ”。The Redis security model is: "it's totally insecure to let 
untrusted clients access the system, please protect it from the outside world yourself". 因此 
最 近 爆 出 的 问题 也 非 redis 本 身 产品 问题 ， 属 于 不 当 配 置 。 


问题 规避 : 


1. 使 用 redis 单 独 用 户 和 组 进行 安全 部 署 ， 并 且 在 OS 层面 禁止 此 用 户 ssh 登 陆 ， 这 就 从 根本 
上 防止 了 root 用 户 启 停 redis 带 来 的 风险 。 

修改 默认 端口 ， 降 低 网 络 简单 扫描 危害 。 

修改 绑 定 地 址 ， 如 果 是 本 地 访问 要 求 绑 定 本 地 回环 。 

要 求 设置 密码 ， 并 对 配置 文件 访问 权限 进行 控制 ， 因 为 密码 在 其 中 是 明文 。 

HA 环境 下 主 从 均 要 求 设 置 密码 。 另外 ， 我 们 建议 在 网 络 防火 墙 层 面 进行 保护 ， 杜 绝 任何 
部 署 在 外 网 直接 可 以 访问 的 redis 的 出 现 。 


ak WD 


10. 简 述 


10.1 概念 


在 本 文档 中 ， 高 可 用 主要 指 的 是 解决 尽 可 能 在 不 丢失 数据 的 前 提 下 不 间断 服务 问题 ， 由 于 
redis 是 异步 复制 ， 因 此 不 保证 数据 完全 不 丢失 ， 在 这 个 场景 下 并 不 实现 动态 横向 扩容 ， 只 能 
进行 纵向 扩容 ， 你 只 要 加 内 存 ， 启 动 redis， 设 置 maxmemory 即 可 。 而 分 片 (Sharding) 主要 
指 的 是 解决 在 线 动态 横向 扩容 缩 容 问题 ， 当 然 为 了 稳定 也 进行 高 可 用 部 署 配置 ， 即 包含 成 对 
的 主 从 关系 。 


10.2 高 可 用 主要 场景 和 对 应 思路 


适用 于 redis 非 重度 用 户 ， 内 存 占 用 不 大 ， 总 体内 存 大 小 的 增长 趋势 可 预 估 ， 有 一 定 停机 时 间 
的 系统 纵向 扩容 即 可 满足 ， 可 以 对 全 库 进 行 主 从 复制 即 满 足 需求 而 不 需要 做 分 片 ， 一 般 
针对 单个 小 型 项 目的 cache 等 场景 。 一 般 采 用 一 主 多 从 的 sentine| 方 案 进行 部 署 。 





10.3 分 片 主要 场景 和 对 应 思路 


分 片 是 为 了 应 对 业务 增长 带 来 的 数据 增长 ， 需 要 对 动态 横向 扩容 有 一 定 要 求 时 采用 。 对 于 一 
般 的 分 片 采用 一 致 性 哈 希 ， 它 极 大 的 优化 机 器 增删 时 带 来 的 哈 希 目标 漂移 问题 。 同 时 对 于 
Hash 目 标 漂移 时 产生 的 严重 的 数据 倾斜 ， 可 以 利用 虚拟 节点 来 优化 。 基 本 上 ， 物 理 节 点 有 了 
一 定 规模 后 ， 只 要 不 是 同时 挂 多 个 节点 ， 或 者 同时 扩容 多 个 节点 ， 数 据 分 片 不 会 有 太 大 的 扰 
动 。 穿 透 过 Cache 的 请 求 后 端 存储 可 以 抗 住 即 可 。 


稍微 复杂 的 方案 是 可 以 使 用 “ 预 分 片 《Pre-Sharding) 的 方案 ， 也 称 为 按 “ 桶 ?进行 数据 划分 ， 即 
分 配 一 个 相当 大 的 集合 ， 对 Key 哈 希 的 结果 落 在 这 个 集合 中 ， 集 合 的 每 个 元 素 又 与 具体 的 物理 
节点 存在 多 对 一 的 路 由 映射 关系 ， 这 张 路 由 表 由 一 个 配置 中 心 进行 维护 。 其 实 ， 一 致 性 哈 硕 
中 的 虚拟 节点 ， 实 际 上 也 可 以 归 类 到 Pre-Sharding 方 案 中 。 换 名 话说 ， 只 要 是 key 经 过 两 次 哈 
希 ， 第 一 次 Hash 到 虚拟 节点 ， 第 二 次 Hash 到 物理 节点 ， 都 可 以 算 作 Pre-Sharding。 只 不 过 区 
别 在 于 ， 一 致 性 哈 希 的 第 二 次 Hash 其 路 由 表 是 按照 算法 国定 的 ， 而 分 桶 的 第 二 次 Hash 其 路 由 
表 是 第 三 方 可 配 的 。 


10.4 适用 场景 对 比 列 表 


主 从 复制 +Sentinel 
Twemproxy 

3.0 Cluster 

Codis 


应 用 层面 
presharding 


开发 复杂 
度 


简单 
简单 
简单 
简单 
复杂 


简单 

稍微 复杂 

复杂 

复杂 

视 开 发 的 水 平 而 


2 


A 


11. 高 可 用 和 集群 架构 与 实践 


11.1 EM X #l-sentinel 2x5 


11.1.1 高 可 用 原理 


12.1.1.1 发 现 原 理 


Sentinel £ 3 分 为 发 现 从 服务 器 ss 和 发 现 其 他 sentine|l 服 务 两 X: 


e Sentinel 实 例 可 以 通过 询问 主 实例 来 获得 所 有 从 实例 的 信息 
e Sentinel 进 程 可 以 通过 发 布 与 订阅 来 自动 发 现 正在 监视 相同 主 实例 的 其 他 Sentinel > 


Sentinel 都 订阅 了 被 它 监 视 的 所 有 主 服务 器 和 从 服务 器 的 ”sentinel :hello 频道 ， 
之 前 未 出 现 过 的 sentinel 进 程 。 当 一 个 Sentinel 发 现 一 个 新 的 Sentinel 时 ， 它 会 将 新 的 
Sentinel 添加 到 一 个 列表 中 ， 这 个 列表 保存 了 Sentinel 已 知 的 ， 监 视 同一 个 主 服务 器 的 
所 有 其 他 Sentinel 。 


: 文中 的 横 杠 要 替换 为 下 滑 线 ，markdown 不 太 能 显示 出 来 .… 


11.1.1.2 基本 切换 原理 


在 切换 中 ， 配 置 文件 是 会 被 动态 修改 的 ， 例 如 当 发 生 主 备 切 换 时 候 ， 配 置 文件 中 的 master 会 
被 修改 为 另外 一 个 slave。 这 样 ， 之 后 sentinel 如 果 重 启 时 ， 就 可 以 根据 这 个 配置 来 恢复 其 之 前 
所 监控 的 redis 集 群 的 状态 。 在 sentinel 切 换 过 程 中 有 三 大 步骤 : 


.判断 是 否 下 线 (者 主 是 否 真 的 咽 气 驾 崩 ) 每 个 sentinel 在 监控 的 时 候 ， 每 秒 对 主 进行 一 次 
ping 4 命令 ， 如 果 多 次 ping 的 响应 时 间 超过 了 配置 文件 中 的 down-after-milliseconds， 那 么 

这 个 哨兵 就 会 认为 被 监控 的 实例 是 SDown 状 态 (Subjectively Down， 主 观 down ， 
SDOWN) 。 这 个 时 候 此 sentinel 会 判断 此 master 是 否 丨 的 挂 了 一 一 即 可 以 设置 成 
ODOWN (Objectively Down， 客 观 down，ODOWN ) 。 设 置 成 ODOWN 的 条 件 是 除了 当 
前 sentinel 认 为 此 master SDOWN ， et 此 master SDOWN ， 当 认 
为 SDOWN 的 sentinel 的 个 数 等 于 或 超过 配置 文件 中 monitor master 最 后 的 那个 参数 
quorum 后 ， 就 sentinel 就 会 认为 E eu 。 被 标记 为 DODOWN 的 另 一 个 效应 
是 : 在 一 般 情 况 下 ， 每 个 Sentinel 进程 会 以 每 10 秒 一 次 的 频率 向 它 已 知 的 所 有 主 实例 和 
从 实例 发 送 INFO 命令 。 当 一 个 主 实例 被 Sentinel 实 例 标记 为 客观 下 线 时 ，Sentinel 向 
ODOWN ee a Ed 发 送 INFO 命令 的 频率 会 从 10 秒 一 次 改 为 每 秒 一 次 。 

2. 进行 投票 选举 主持 切换 的 sentinel (选举 一 个 长 老 ， 由 它 来 钦 点 新 帝王 ) 当 master 被 认为 
是 ODOWN 的 时 候 ， 可 能 需要 进行 failover， 但 是 并 不 是 down 了 就 可 以 执行 failover > 
可 能 有 多 个 sentinel 都 认为 master 是 odown 了 ， 这 时 候 就 需要 选举 一 个 sentiel 来 执行 

failover。 也 就 是 说 切换 之 前 要 先 选举 一 个 sentine| 来 主持 切换 ， 条 件 是 必须 有 
»-max(quorum, num(sentinels)/2 +1) 的 sentinel 都 同意 某 一 个 sentinel 主 持 failover， 那 么 
这 个 sentinel 就 可 以 主持 failover， 超 过 半数 这 个 条 件 就 能 限制 住 此 时 刻 只 有 一 个 sentinel 
来 操作 。 这 个 也 是 通过 is-master-down-by-addr 消 息 进行 更 新 每 个 sentinel 的 选举 的 
leader。 每 个 sentinel 都 有 一 个 epoch， 这 个 东西 相当 于 一 个 时 间 改 ， 是 递增 的 值 ， 如 果 
集群 正常 的 话 ， 所 有 的 sentinel 的 这 个 值 都 是 一 样 的 。 当 master 出 现 异常 后 ， 每 个 
sentinel 后 自 增 这 个 值 ， 如 果 一 直 没 有 选举 出 来 leader 的 话 ， 这 个 值 会 跟随 这 time event 的 
轮 询 ， 每 次 加 一 ， 在 设 定 的 故障 迁移 超时 时 间 的 两 倍 之 后 ， 重 新 尝试 当选 。 同 时 is- 
master-down-by-addr 会 把 这 个 值 发 送 到 其 他 的 sentinel， 其 他 的 sentinel 收 到 这 个 消息 
后 ， 会 判断 自己 的 epoch 和 消息 中 的 epoch， 如 果 自 己 的 epoch 小 于 消息 中 的 epoch， 那 么 
其 他 的 sentinel 就 会 选举 传递 消息 的 这 个 sentinel。 最 终 会 大 部 分 sentinel 都 同意 一 个 较 大 
的 epoch 的 sentinel 主 持 failover ° 


3. 进行 切换 ， 并 其 他 实例 同步 新 Master (新 帝王 登基 ， 其 余 落 王 宣誓 效忠 新 帝王 ) RPE 
持 切换 的 sentinel 选 出 一 个 从 redis 实 例 ， 并 将 它 升级 为 Master ^ 首先 是 要 下 面 的 条 件 按照 
如 下 条 件 得 选 备 选 node : 1) slave 节 点 状态 处 于 S_DOWN,O_DOWN,DISCONNECTED 
的 除外 2) 最 近 一 次 ping 应 答 时 间 不 超过 5 倍 ping 的 间隔 (假如 ping 的 间隔 为 1 秒 ， 则 最 近 
一 次 应 答 延 迟 不 应 超过 5 秒 ，redis sentinel RU A147) 3) info_refresh 应 答 不 超过 3 售 
info_refresh 的 间隔 (原理 同 2,redis sentinel 默 认为 10 秒 ) 4) slave 节 点 与 master 节 点 失 


去 联系 的 时 间 不 能 超过 ( wow: - master->s_down_since_time) + (master- 

»down after period * 10)) 。 总 体 意 思 是 说 ，slave 节 点 与 master 同 步 太 不 及 时 的 (比如 
新 启动 的 节点 ) ， rere % 7 » 5) Slave priority 不 等 于 0 (这 个 是 在 配置 文件 中 指 
定 ， 默 认 配 置 为 100) 。 


然后 再 从 备 选 node 中 ， 按 照 如 下 顺序 选择 新 的 master 1) 较 低 的 slave_priority (这 个 是 在 配置 
文件 中 指定 ， 默 认 配 置 为 100) 2) 较 大 的 replication offset (每 个 slave 在 与 master 同 步 后 
offset 自 动 增加 ) 3) 较 小 的 runid (每 个 redis 实 例 ， 都 会 有 一 个 runid, 通 常 是 一 个 40 位 的 随机 字 
符 串 ,在 redis 局 动 时 设置 ， 重 复 概率 非常 小 ) 4) 如 果 以 上 条 件 都 不 足以 区 别 出 唯一 的 节点 ， 则 
会 看 哪个 slave 节 点 处 理 之 前 master 发 送 的 command 多 ， 就 选 谁 。 主持 切换 的 sentine| 向 被 选 
中 的 从 redis 实 例 发 送 SLAVEOF NO ONE 命令 ， 让 它 转变 为 Master。 然 后 通过 发 布 与 订阅 功 
能 ， 将 更 新 后 的 配置 传播 给 所 有 其 他 Sentinel > X-4& Sentinel 对 它们 自己 的 配置 进行 config- 
rewrite。 随 后 sentinel 向 已 下 线 的 Master 的 从 服务 器 发 送 SLAVEOF 命 令 ， 让 它们 去 复制 新 
Master ° 


注意 : sentinel failover-timeout 这 个 选项 有 四 个 含义 ， 有 必要 在 此 翻译 一 下 1) 对 于 一 个 
sentinel 选 出 的 同一 个 master 进 行 再 次 的 failover 党 试 所 需要 的 时 间 这 个 参数 值 的 两 倍 。 2) 
人 误 的 复制 了 一 个 错 的 主 时 Sentinel 会 强迫 其 复制 正确 的 主 的 时 间 。 

3) 取消 一 个 已 经 开始 但 是 还 没有 引起 任何 配置 改变 的 failover 所 需要 的 时 间 。 4) 等 待 所 有 
slave 被 重新 配置 为 新 主 的 slave 而 所 需要 的 最 大 时 间 。 注 意 即使 超过 了 这 个 时 间 sentinel 也 会 
最 终 配 置 slave 去 同步 最 新 的 master 





11.1.2 环境 搭建 


11.1.2.1 #4 AW 


部 署 架构 上 采用 三 台 机 器 ， 一 个 Master 接 受 写 请 求 ， 两 个 Slave 进 行 数据 同步 ， 三 台 机 器 上 都 
部 署 sentine| (一 般 为 奇数 个 ， 因 为 需要 绝 大 部 分 进行 投票 才能 failover) 。 (官方 示例 ) 具体 
架构 如 下 图 : 


Ml 
S1 
R | = = R3 
S2 S3 
Configuratio quorum - 2 


注意 : 如 果 有 条 件 可 以 将 sentinel 多 部 署 几 个 在 客户 端 所 在 的 应 用 服务 器 上 ， 而 不 是 与 从 节点 
部 署 在 一 起 ， 这 样 避 免 整 机 宕 机 后 sentinel 和 slave 都 减少 而 导致 的 切换 选举 sentine| 无 法 超过 
半数 。 


11.1.2.2 网 络 规划 


redis 高 可 用 环境 不 需要 进行 心跳 线 的 配置 ， 每 个 物理 节点 的 网 卡 进行 双 网 卡 主 备 绑 定 生成 
bond0 即 可 。 


11.1.2.3 用 户 规划 


用 户 名 用 户 所 在 组 用 户 目录 权限 备注 
redis(10086) redis (10086) /redis sudo (如 需要 浮动 |P 时 赋予 ) = 


11.1.2.4 持久 化 规划 


如 果 读 多 写 少 ， 可 以 在 master 上 只 开 尼 aof， 在 低 峰 期 定时 进行 bgsave， 在 slave 上 彻底 关闭 

持久 化 。 如 果 读 写 差不多 ， 可 以 在 一 个 slave 上 开启 rdb (这 个 slave 只 做 持久 化 ， 不 进行 读 操 
JE) ， 在 其 余 主 从 都 关闭 持久 化 。 注意 : 从 节点 是 不 会 从 本 地 恢复 而 直接 从 master 节 点 进行 
恢复 的 ， 因 此 在 重启 前 如 果 有 需要 备份 从 节点 ， 则 需要 把 aof 和 rdb 文 件 移 走 。 


11.1.2.5 目录 规划 


目录 
/redis/bin 
/redis/conf 
/redis/run 
/redis/log 
/redis/script 


/redis/data 


含义 

redis 可 执行 文件 

redis 和 supervisord 的 配置 文件 
redis 和 supervisord 运 行 时 的 pid 文 件 
redis 和 supervisord 的 日 志 

一 些 管理 脚本 和 测试 脚本 
Redis 持 久 化 数据 目录 
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解压 下 列 压 缩 包 至 /tmp/redis 目 录 ， 以 符合 上 述 目录 结构 : 
部 署 相 关 组 件 : cd /tmp/redis/deploy ./deploy.sh 


修改 Master 配 置 文件 redis.conf， 注 释 掉 包含 slaveof 的 语句 。 修改 Slave 配 置 文件 redis.conf > 
添加 slaveof masterlP port， 指 定 主 从 修改 三 台 机 器 的 sentine| 配 置 文件 ， 指 定 主 服务 器 的 IP 
和 端口 : sentinel monitor mymaster masterlP port 2 


然后 使 用 supervisord 重 新 启动 。 


11.1.2.7 配置 文件 


首先 ， 一 个 sentinel 可 以 配置 多 个 master。 一 个 master 的 配置 如 下 : 


port 26379 

### 定 义 目录 存放 

dir "/redis" 

### 监 控 mymaster( 可 自 定义 -但 只 能 包括 A-Z 0-9 和 ”._-”)， 注 意 quorum 只 影响 0DOWN 的 判断 ， 但 是 不 影响 fail 
OVer， 发 生 failover 的 条 件 必须 是 半数 sentinel 认 为 老 Master 已 经 0DOWN。 此 参数 建议 设置 为 sSentinel/2+1 的 
数值 ， 否 则 可 能 会 产生 脑 裂 。 

sentinel monitor mymaster 192.168.145.131 6379 2 

###mymaster 多 久 不 响应 认为 SDOWN， 设 置 为 3100 也 就 是 说 3 次 ping 失 败 后 认为 SDOWN 

sentinel down-after-milliseconds mymaster 3100 

### 如 果 在 该 时 间 (ms) 内 未 能 完成 failover 操 作 ， 则 认为 该 failover 失 败 

sentinel failover-timeout mymaster 15000 


### 在 执行 故障 转移 时 ， 最 多 可 以 有 多 少 个 从 Redis 实 例 在 同步 新 的 主 实例 ， 在 从 Redis 实 例 较 多 的 情况 下 这 个 数 
字 越 小 ， 同 步 的 时 间 越 长 ， 完 成 故障 转移 所 需 的 时 间 就 越 长 
sentinel parallel-syncs mymaster 1 


###reconfig 的 时 候 执行 的 脚本 (3b Be) 
sentinel client-reconfig-script mymaster /redis/script/failover.sh 


### 出 现任 何 sentinel 在 warning 事 件 时 候 执 行 的 脚本 ( 3 BC) 
sentinel notification-script mymaster /redis/script/notify.sh 


HHHH SEB 
logfile "/redis/log/sentinel.log" 


11.1.3 维护 操作 


11.1.3.1 完整 局 动 


supervisord -c /redis/conf/redis-supervisord.conf 会 自动 拉 起 本 机 的 redis 和 sentinel 


11.1.3.2 启 停 redis 


supervisorctl -c /redis/conf/redis-supervisord.conf start redis supervisorctl -c 
/redis/conf/redis-supervisord.conf stop redis supervisorctl -c /redis/conf/redis- 
supervisord.conf restart redis 


11.1.3.3 于 动 司 动 


有 两 种 方式 : 第 一 种 : redis-sentinel /path/to/sentinel.conf 第 二 种 : redis-server 
/path/to/sentinel.conf --sentinel 


11.1.3.4 È F sentinel 


supervisorctl -c /redis/conf/redis-supervisord.conf start redis-sentinel supervisorctl -c 
/redis/conf/redis-supervisord.conf stop redis-sentinel supervisorctl -c /redis/conf/redis- 
supervisord.conf restart redis-sentinel 


11.1.3.5 查看 sentinel 状 态 


redis-cli -p 26379 info 


11.1.3.6 查看 master 地 址 和 端口 


sentinel get-master-addr-by-name myredis 


11.1.3.7 查看 master 配 置 


redis-cli -p 26379 sentinel masters 


yN 


11.1.3.8 € 4 sentinel 


sentinel reset myredis 重 置 操作 清除 该 sentine| 的 所 保存 的 所 有 状态 信息 ， 并 进行 一 次 重新 的 
发 现 过 程 。 


11.1.3.9 动态 修改 sentinel 配 置 


SENTINEL SET command 例如 : 


SENTINEL SET objects-cache-master down-after-milliseconds 1000 


11.1.3.10 主动 切换 


sentinel failover myredis 此 操作 会 将 新 的 配置 发 送 到 其 他 sentinel 上 。 


` 


11.1.3.11 判断 主 从 是 否 完全 一 臻 


查看 key 的 数目 


debug digest 


对 整个 数据 库 的 数据 ， 产 生 一 个 摘要 ， 可 用 于 验证 两 个 redis 数 据 库 数据 是 否 一 致 
127.0.0.1:6379> debug digest 7164ae8b6730c8bcade46532e5e4a8015d4cccfb 
127.0.0.1:6379> debug digest 7164ae8b6730c8bcade46532e5e4a8015d4cccfb 


11.1.3.12 接收 所 有 事件 信息 


127.0.0.1:26379>  PSUBSCRIBE * 


注意 这 是 在 sentinel| 上 监控 所 有 的 频道 信息 ， 查 看 的 是 切换 前 后 发 生 的 消息 。 


还 有 一 个 sentinel _:hello 的 频道 ， 这 个 频道 是 在 redis 实 例 上 的 ， 用 途 是 sentine| 之 间 发 现 对 
方 的 ， 别 无 它 用 。 在 redis 实 例 上 可 以 通过 monitor 或 者 订阅 此 频道 看 到 这 个 消息 


11.1.4 高 可 用 和 措 第 测试 


11.1.4.1 测试 环境 介绍 


Master :192.168.2.128 (A) :6379 
Slave:192.168.2.129 (B) :6379 
Slave:192.168.2.130 (B) :6379 
Sentinel: 三 台 机 器 的 26379 端 口 


sentinel 的 消息 可 以 通过 sentinel 日 志 (/redis/log/sentinel.log) 以 及 sentinel:hello 订 阅 此 频道 
进行 查看 。 


11.1.4.2 手动 切换 测试 


集群 情况 ，2.128 为 主 

# Replication 
role:master 
connected slaves:2 


min slaves good slaves:2 
slave0:ip=192.168.2.130, port=6379, state=online, offset=14617637, lag=0 
slavel:ip=192.168.2.129, port=6379, state=online, of fset=14617637, lag=0 





发 起 主动 切换 : 


127.0.0.1:26379> sentinel failover mymaster 
OK 


查看 sentinel 日 志 : 


[1158] 19 Jun 08:14:38.504 

[1158] 19 Jun 08:14:38.507 

[1158] 19 Jun 08:14:38.507 

[1158] 19 Jun 08:14:38.581 
d265 29 

[1158] 19 Jun 08:14:38.581 £ +elected-leader master mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:38.581 # +failover-state-select-slave master mymaster 192.168. 
2.129 6379 

[1158] 19 Jun 08:14:38.655 # +selected-slave slave 192.168.2.128:6379 192.168.2.12 
8 6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:38.655 * +failover-state-send-slaveof-noone slave 192.168.2.12 
8:6379 192.168.2.128 6379 @ mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:38.714 * +failover-state-wait-promotion slave 192.168.2.128:63 
79 192.168.2.128 6379 @ mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:39.642 # +promoted-slave slave 192.168.2.128:6379 192.168.2.12 
8 6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:39.642 # +failover-state-reconf-slaves master mymaster 192.168 
.2.129 6379 

[1158] 19 Jun 08:14:39.705 * +slave-reconf-sent slave 192.168.2.130:6379 192.168.2 
.130 6379 Q9 mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:40.645 * +slave-reconf-inprog slave 192.168.2.130:6379 192.168 
.2.130 6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:40.645 * +slave-reconf-done slave 192.168.2.130:6379 192.168.2 
.130 6379 @ mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:40.735 # +failover-end master mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:14:40.735 # +switch-master mymaster 192.168.2.129 6379 192.168.2. 
128 6379 

[1158] 19 Jun 08:14:40.736 * «slave slave 192.168.2.130:6379 192.168.2.130 6379 Q 
mymaster 192.168.2.128 6379 

[1158] 19 Jun 08:14:40.743 * «slave slave 192.168.2.129:6379 192.168.2.129 6379 Q 
mymaster 192.168.2.128 6379 

[1158] 19 Jun 08:27:56.524 # +new-epoch 30 

[1158] 19 Jun 08:27:57.519 # +config-update-from sentinel 192.168.2.128:26379 192. 
168.2.128 26379 @ mymaster 192.168.2.128 6379 

[1158] 19 Jun 08:27:57.519 # +switch-master mymaster 192.168.2.128 6379 192.168.2. 
129 6379 

[1158] 19 Jun 08:27:57.519 * «slave slave 192.168.2.130:6379 192.168.2.130 6379 Q 
mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:27:57.524 * «slave slave 192.168.2.128:6379 192.168.2.128 6379 Q 
mymaster 192.168.2.129 6379 


Executing user requested FAILOVER of 'mymaster' 
+new-epoch 29 

t+try-failover master mymaster 192.168.2.129 6379 
t+vote-for-leader 7d60ccf8a9f9F81e5292a0dbde2c54c76a2b 


dk dk + Gk 


在 2.129 上 看 ， 集 群 已 经 切换 过 来 : 


# Replication 
role:master 


connected slaves:2 
slave0:ip=192.168.2.130, port=6379, state=online, of fset=14774926, lag=1 
slavel:ip=192.168.2.128, port=6379, state=online, of fset=14774926, lag=1 





11.1.4.3 主 实例 宪 测 试 
接 上 ， 此 时 master 为 2.129， 找 出 redis 实 例 的 pid， 然 后 kill : 


[root@hadoop2 log]# ps -ef |grep redis-server 
root 11349 1157 1 Juni18 ? 00:15:45 /usr/bin/redis-server 0.0.0.0:6379 


root 14969 10433 © 08:33 pts/1 00:00:00 grep --color-auto redis-server 
[rootühadoop2 log]# kill 11349 


此 时 查看 sentinel 日 志 : 


[1158] 19 Jun 08:33:57.953 
[1158] 19 Jun 08:33:58.025 
[1158] 19 Jun 08:33:58.025 
[1158] 19 Jun 08:33:58.025 
[1158] 19 Jun 08:33:58.028 
31 

[1158] 19 Jun 08:33:58.036 # 192.168.2.130:26379 voted for 7d60ccf8a9f9f81e5292a0dbde2 

c54c76a2bd265 31 

[1158] 19 Jun 08:33:58.037 # 192.168.2.128:26379 voted for 7d60ccf8a9f9f81e5292a0dbde2 

c54c76a2bd265 31 

[1158] 19 Jun 08:33:58.105 # t+telected-leader master mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:58.105 # +failover-state-select-slave master mymaster 192.168.2.12 

9 6379 

[1158] 19 Jun 08:33:58.183 # +selected-slave slave 192.168.2.128:6379 192.168.2.128 63 

79 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:58.183 * +failover-state-send-slaveof-noone slave 192.168.2.128:63 

79 192.168.2.128 6379 @ mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:58.267 * +failover-state-wait-promotion slave 192.168.2.128:6379 1 

92.168.2.128 6379 @ mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:59.039 # +promoted-slave slave 192.168.2.128:6379 192.168.2.128 63 
79 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:59.040 # +failover-state-reconf-slaves master mymaster 192.168.2.1 
29 6379 

[1158] 19 Jun 08:33:59.104 * +slave-reconf-sent slave 192.168.2.130:6379 192.168.2.130 
6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:33:59.245 # -odown master mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:34:00.082 * +slave-reconf-inprog slave 192.168.2.130:6379 192.168.2.1 
30 6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:34:00.082 * +slave-reconf-done slave 192.168.2.130:6379 192.168.2.130 
6379 Q mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:34:00.193 # +failover-end master mymaster 192.168.2.129 6379 

[1158] 19 Jun 08:34:00.193 # +switch-master mymaster 192.168.2.129 6379 192.168.2.128 
6379 

[1158] 19 Jun 08:34:00.194 * «slave slave 192.168.2.130:6379 192.168.2.130 6379 @ myma 
ster 192.168.2.128 6379 

[1158] 19 Jun 08:34:00.200 * +slave slave 192.168.2.129:6379 192.168.2.129 6379 @ myma 
ster 192.168.2.128 6379 

[1158] 19 Jun 08:34:03.319 # +sdown slave 192.168.2.129:6379 192.168.2.129 6379 @ myma 
ster 192.168.2.128 6379 


+sdown master mymaster 192.168.2.129 6379 

+odown master mymaster 192.168.2.129 6379 #quorum 3/2 
-new-epoch 31 

t+try-failover master mymaster 192.168.2.129 6379 
*vote-for-leader 7d60ccf8a9f9f81e5292a0dbde2c54c76a2bd265 


+ + Gk Gk Gk 


从 日 志 中 可 以 看 出 已 经 切换 到 2.128， 此 时 在 2.128 上 看 集群 状态 : 
# Replication 
role:master 


connected slaves:1 
min slaves good slaves:1 
slave0:ip=192.168.2.130, port=6379, state=online, offset=30841, lag=0 





目前 2.128 为 主 ，2.130 为 从 ，2.129 上 的 redis 宕 掉 。 现 在 重启 2.129 上 的 redis 实 例 ， 启 动 后 该 
节点 会 从 原先 的 主 变 为 从 ， 并 对 2.128 进 行 同步 ， 最 后 达到 同步 状态 : 


# Replication 
role:slave 


master host:192.168.2.128 
master port:6379 
master link status:up 





查看 redis.conf 和 redis-sentinel.conf， 发 现 都 被 改写 。 


11.1.4.4 单 从 


x 


iL 
N 


例 宕 测试 


接 上 ，2.129 为 从 ， 此 时 杀 掉 该 进程 ，redis.log 日 志 记 录 如 下 : 


[14984 | signal handler] (1434674492) Received SIGTERM scheduling shutdown... 
41: 
41: 
41: 
41: 
41: 


[14984] 19 Jun 
[14984] 19 Jun 
[14984] 19 Jun 
[14984] 19 Jun 
[14984] 19 Jun 


08: 
08: 
08: 
08: 
08: 


32. 
32. 
32. 
32. 
32. 


545 
545 
545 
580 
580 


# 


* 
* 


* 


# 


User requested shutdown... 

Calling fsync() on the AOF file. 

Saving the final RDB snapshot before exiting. 
DB saved on disk 

Redis is now ready to exit, bye bye... 


此 时 集群 正常 提供 对 外 服务 ， 并 不 影响 。 


` 


11.1.4.5 双 从 实例 宕 测试 


接 上 ， 此 时 Master 为 2.128， 还 有 一 个 活着 的 从 2.130， 集 群 状态 如 下 : 
# Replication 
role:master 


connected _ slaves:1 
min slaves good slaves:1 
slave0:ip=192.168.2.130, port=6379, state=online, offset=154174, lag=0 





此 时 ， 杀 掉 2.130 的 redis 实 例 后 ， 集 群 状态 如 下 : 


# Replication 
role:master 
connected slaves:0 





此 时 由 于 配置 了 最 小 slave 个 数 为 1， 已 经 不 满足 ， 因 此 集群 变 为 只 读 状 态 : 


127.0.0.1:6379» get 3887/5 


127.0.0.1:6379» set 38875 abcdad 
(error) NOREPLICAS Not enough good slaves to write. 





11.1.4.6 Žž sentinel z 7X 


恢复 集群 状态 ，2.128 为 主 ，2.129、2.130 为 从 。 


# Replication 
role:master 
connected_slaves:2 


min slaves good slaves:2 
slave0:ip=192.168.2.129, port=6379, state=online, offset=195839, lag=1 
slavel:ip=192.168.2.130, port=6379, state=online, offset=195839, lag=1 


此 时 ， 从 2.128 上 看 sentinel 状 态 : 

# Sentinel 

sentinel masters:1 

sentinel tilt:0 

sentinel running scripts:0 

sentinel scripts queue length:0 
master0:name-mymaster,status-ok,address-192.168.2.128:6379,s1aves-2,sentinels-3 
由 于 sentinel 都 是 对 等 的 ， 在 此 选择 对 2.128 上 的 sentinel 进 行进 程 宕 测试 : 

[root@hadoopl ~]# supervisorctl stop redis-sentinel 

redis-sentinel: stopped 

[root@hadoopl ~]# ps -ef |grep sentinel 

root 1419 1375 0 00:06 pts/0 00:00:00 grep --color-auto 

此 时 ， 本 节点 sentinel 日 志 为 : 

[1248] 20 Jun 00:06:27.081 # User requested shutdown... 

[1248] 20 Jun 00:06:27.081 # Sentinel is now ready to exit, bye bye... 
其 他 节点 Sentinel 日 志 为 : 


[1120] 20 Jun 00:06:29.839 # +sdown sentinel 192.168.2.128:26379 192.168.2.128 26379 @ mymaster 192.168.2.128 6 

















表示 2.128 上 的 sentnel 已 经 宕 。 此 时 集群 读 写 正常 ， 在 一 个 sentinel 宕 机 的 基础 上 宕 master 后 
切换 正常 。 


11.1.4.7 sentinel € 测试 


恢复 集群 状态 ，2.128 为 主 ，2.129、2.130 为 从 。 此 时 ， 将 2.128 的 sentinel 和 2.129 的 sentinel 
都 宕 掉 。 此 时 主 从 集群 读 写 均 正 常 。 在 双方 sentinel 宕 机 时 ， 杀 掉 master， 主 从 集群 切换 失 
效 ， 原 因 是 因为 设置 sentinel 的 quorum 为 2， 最 少 有 两 个 sentinel 活 集群 才 正 常 切 换 。 


11.1.4.8 master 所 在 主机 整体 宕 测试 


恢复 集群 状态 ，2.128 为 主 ，2.129、2.130 为 从 。 此 时 ， 对 2.128 进 行 宕 机 测试 ， 直 接 关 闭 电 
源 。 主 从 切换 至 2.130, 从 2.129 指 向 新 的 主 : 


# Replication 

role:slave 

master host:192.168.2.129 
master port:6379 
master link status:up 
master last io seconds ago:0 
master sync in progress:0 
slave repl offset:17771 
slave priority:100 
slave read only:1 

connected slaves:0 
master repl offset:0 

repl backlog active:0 

repl backlog _size:1048576 
repl backlog first byte offset:0 
repl backlog histlen:0 





sentinel SA : 


20 Jun 00:38:50.864 +sdown master mymaster 192.168.2.128 6379 
20 Jun 00:38:50.86 *sdown sentinel 192.168.2.128:26379 192.168.2.128 26379 @ mymaster 192.168.2.128 6 


20 Jun £38:51. +new-epoch 34 

20 Jun 00:38:51. *vote-for-leader 740df7bb5ec393941b9591999e195dffc231d077 34 

20 Jun 00:38:52.00 t+odown master mymaster 192.168.2.128 6379 #quorum 2/2 

20 Jun :38:52.00 Next failover delay: I will not start a failover before Sat Jun 20 00:39:21 2015 


20 Jun :38:52.14t *config-update-from sentinel 192.168.2.129:26379 192.168.2.129 26379 @ mymaster 19 


9: 192.168.2.129 6379 

130 6379 @ mymaster 192.168.2.129 6379 
128 6379 @ mymaster 192. 168.2.129 6379 
128 6379 @ mymaster 192.168.2.129 6379 


20 Jun 00 2.148 +switch-master mymaster 192.168.2.12€ 7 
20 Jun 00 2 +slave slave 192.168.2.130:6379 - wee 
20 Jun 52; +slave slave 192.168.2.128:6379 ika 
20 Jun 00:38:55.2 +sdown slave 192.168.2.128:6379 “P 





11.1.4.9 slave? 4€ i3 pu E AR E pA 


恢复 集群 状态 ，2.128 为 主 ，2.129、2.130 为 从 。 此 时 直接 关闭 2.129， 这 时 相当 于 一 个 redis 
slave 进 程 和 一 个 sentinel 进 程 宕 。 主 不 受 影响 ， 并 且 感 知 到 一 个 从 已 经 宕 机 。 


# Replication 
role:master 


connected slaves:l 
min slaves good slaves:l 
slave0:ip-192.168.2.130,port-26379,state-online,offset-68427,1ag-0 


master repl offset:68427 

repl backlog active:l 

repl backlog_size:1048576 

repl backlog first_byte offset:2 
repl backlog histlen: 68426 





sentinel 日 志 记 录 了 此 事件 。 


[1249] 23 Jun 22:14:07.993 # +sdown sentinel 192.168.2.129:26379 192.168.2.129 26379 @ mymaster 192 





23 Jun 22:14:08.049 # +sdown slave 192.168.2.129:6379 192.168.2.129 6379 @ mymaster 192.168.2.128 6379 


11.1.4.10 iz R IR 


恢复 集群 状态 ，2.128 为 主 ，2.129、2.130 为 从 。 首 先进 行 一 个 从 网 络 分 离 的 测试 : 


此 时 集群 状态 为 (从 master 看 ) 


# Replication 
role:master 


connected slaves:2 

min slaves good slaves:2 
slave0:ip=192.168.2.130, port=6379, state=online, offset=28595, lag=0 
slavel:ip=192.168.2.129, port=6379, state=online, offset=28595, lag=0 


master repl offset:28595 

rep1 backlog active:1 

repl backlog_size:1048576 

repl backlog first byte offset:24176 
repl backlog _histlen: 4420 


此 时 切断 2.130 这 个 链 路 ，2.128 和 2.129 分 别 为 主 从 形成 一 个 集群 ，2.130 会 失败 ， 因 为 没有 
足够 的 sentinel 进 行 投 票 完 成 failover。 剩 余 集 群 如 下 : 

# Replication 

role:master 

connected slaves:1 


min slaves good slaves:l1 
slave0:ip-192.168.2.129,port-6379,state-online,offset-891097,1ag-0 





master repl offset:904641 

repl backlog active:1 

repl backlog_size:1048576 

repl backlog first byte offset:24176 
repl backlog histlen:880466 





第 三 台 机 器 则 为 slave 失 败 状态 : 


it Replication 

role:slave 

master host:192.168.2.128 

master port:6379 
master link status:dowun 

master last io seconds ago:-1 
master sync in progress:B 

slave repl offset:341651 

master link down since seconds:85 
slave_priority:188 
slave_read_only:1 
connected_slaves:0 
master_repl_offset:8 
repl_backlog_active:@ 

repl backlog size:1848576 

repl backlog first byte offset:B 
repl backlog histlen:8 


此 时 由 于 没有 发 生 切 换 ， 因 此 对 应 用 没有 影响 。 





另 一 种 情况 ， 如 果 将 主机 网 络 断 开 ， 剩 余 两 个 从 成 为 一 个 新 的 集群 ， 其 中 一 个 从 (2.129) 成 
AZ: 


I Replication 

role:master 

connected_slaves:@ 

master repl offset:1833886 

repl backlog active:1 

repl backlog size:1848576 

repl backlog first byte offset:1813889 
repl backlog histlen:19998 





127.8.8.1:6379> set keul abcd — 
原来 的 主机 则 为 没有 slave 的 主 : MassusNUUMU NUES Cele ee Coke ee 





此 时 由 于 没有 可 用 的 slave， 昌 主 无 法 写 入 (实际 上 由 于 网 络 断 开 也 根本 无 法 访问 ， 因 此 从 网 
络 和 数据 库 本 身 都 不 具有 可 写 性 ) 

127.0.0.1:6379» set huangpengcheng:email gnuhpc8gmail.com 
OK 


新 主 从 可 以 接受 读 写 请 求 : 
127.0.0.1:6379> get huangpengcheng:email 
"gnuhpcûgmail.com" 此 时 如 果 旧 


主 的 网 络 恢复 ， 由 于 它 的 epoch 比 较 昌 ， 因 此 会 成 为 从 ， 将 部 分 同步 (psync) 网 络 宕 期 间 产 
生 的 新 数据 。 








从 上 述 两 种 情况 测试 ， 此 架构 不 会 导致 双 主 对 外 服务 ， 也 不 会 因为 网 络 恢复 而 数据 混乱 。 


脑 裂 的 场景 还 可 以 进行 的 一 个 测试 时 多 个 sentinel， 例 如 下 列 架构 (为 了 便于 测试 在 两 台 机 器 
上 开 多 端口 模拟 多 台 机 器 ) 


| | | | 
| M | | R3 | 
| R1 | | | 
| R2 | | R4 | 
| | | | 
IS1 S2 S3 | Bis54 S35 | i 
| | | | 
+--------- + +--------- - 


这 个 场景 配置 Quorum=3. 此 时 切断 两 台 机 器 的 通信 网 络 (模拟 两 个 机 房 之 间 通 信 中 断 ) s X 
边 的 机 器 (模拟 主机 房 ) 集群 不 会 受到 影响 ， 右 边 的 机 器 (模拟 灾 备 机 房 ) 由 于 不 够 大 多 数 
因此 不 会 产生 新 的 Master。 


11.1.4.11 quorum?! iA 


在 一 个 如 下 的 四 节点 环境 中 ， 


如 果 sentinel monitor 的 quorum 设 置 为 3， 则 宕 机 一 人 台 后 再 宕 机 ， 此 时 还 剩余 两 台 ， 存 在 两 个 
sentinel， 两 个 slave。 由 于 quorum 为 3; 而 必须 有 >=max(quorum, num(sentinels)/2 +1) = 
max(3,2) = 3 个 sentinel 都 同意 其 中 某 一 个 sentinel 主 持 failover， 因 此 此 时 无 sentinel 可 主持 切 
换 ， 因 此 测试 表明 ， 没 有 新 的 master 被 选 出 来 ， 此 时 只 能 手动 通过 slaveof 命 令 设置 主 从 ， 并 
且 手 动 切换 (redis、sentinel 和 都 应 用 不 用 重启 ) 


首先 修改 redis : 
任意 选取 剩余 的 其 中 一 个 节点 进行 : slaveof no one 
其 他 节点 : slaveof 192.168.145.135 6379 


找 一 个 从 节点 上 的 sentinel， 进 入 sentinel: 
redis-cli -p 26379 

进行 主动 切换 : 

sentinel failover mymaster 

然后 再 在 两 个 sentinel 上 重新 发 现 集群 : 
sentinel reset mymaster 


如 果 sentinel monitor 的 quorum 设 置 为 2， 则 宕 机 一 人 台 后 再 宕 机 ， 此 时 还 剩余 两 台 ， 存 在 两 个 
sentinel， 两 个 slave。 由 于 quorum 为 2， 必 须 有 >=max(quorum, num(sentinels)/2 
+1)=max(2,2) =2 个 的 sentinel 都 同意 其 中 某 一 个 sentinel 主 持 failover， 因 此 此 时 存在 sentinel 
可 主持 切换 ， 因 此 测试 表明 ， 新 的 master 被 选 出 来 。 


但 是 设置 为 2 有 一 个 危险 就 是 如 果 出 现 如 下 的 网 络 隔 离 状 况 : 


+ 一 一 一 一 一 一 一 一 一 一 一 二 


集群 就 会 脑 裂 ， 就 会 出 现 两 个 master。 因 此 ， 生 产 上 为 了 万 无 一 失 ， 宁 可 牺牲 掉 一 定 的 高 可 
用 容错 度 也 要 避免 脑 裂 。 如 果 和 希望 两 台 宕 机 依然 可 以 切换 ， 最 好 的 方案 不 是 降低 quorum 而 是 
增多 sentinel 的 个 数 ， 这 个 建议 也 是 antirez 在 stackoverflow 中 回答 一 个 人 的 提问 时 给 的 建议 

(http://stackoverflow.com/questions/27605843/redis-sentinel-last-node-doesnt-become- 
master#) 。 如 下 场景 测试 : 


4-------- - 4R--------- 十 4--------- 十 4--------- 十 4----------- 十 

| | | | | | | | | | 

| M1 | | R1 | | R2 | | R3 | | | 

| | | | | | | | | | 

| Sl | i | S2 | | S3 | | 34 | | S5 | 

+-------- 一 4R--------- 十 +--------- + +--------- + +----------- + 
orum=3 


此 时 其 中 两 
& @ bu > 3&4 A »-max(quorum, num(sentinels)/2 +1)=max(3,3) =3 个 的 sentinel 都 同意 其 中 某 
一 个 sentinel 主 持 failover， 因 此 此 时 存在 sentinel 可 主持 切换 ， 测 试 结 果 表 明 此 种 部 署 方案 可 
以 正常 切换 。 


11.1.4.12 Master hang % #14, 


由 于 我 们 的 sentinel down-after-milliseconds 为 3100， 即 3.1s， 因 此 在 master 上 执行 : debug 
sleep 3.0， 系 统 不 会 切换 ， 但 是 执行 debug sleep 3.7 或 者 更 大 的 数值 ， 系统 就 会 判定 为 主 
sdown， 进 而 变 为 odown 随 后 发 起 投票 切换 。 很 难 模拟 取消 odown 的 ， 因 为 时 间 差 很 短 。 


11.1.4.13 附 : sentinel.conf 被 修改 后 的 含 


port 26379 dir "/var/lib/redis/tmp" sentinel monitor mymaster 192.168.65.128 6379 2 sentinel 
config-epoch mymaster 18 4/557. mymater SDOWN 时 长 sentinel leader-epoch mymaster 
18 ### 同 时 一 时 间 最 多 18 个 slave 可 同时 更 新 配置 ,建议 数字 不 要 太 大 ,以 免 影响 正常 对 外 提供 
服务 sentinel known-slave mymaster 192.168.65.129 6379 ### C, 4» t slave sentinel known- 
slave mymaster 192.168.65.130 6379 ### C4» slave sentinel known-sentinel mymaster 
192.168.65.130 26379 be964e6330ee1eaa9a6b5a97417e866448c0ae40 HH C. «slave f] "IE 
—id sentinel known-sentinel mymaster 192.168.65.129 26379 
3e468037d5dda0bbd86adc3e47b29c04f2afe9e6 ### C, 4» slave! "E —id sentinel current- 
epoch 18 #HHH 3: ay *T F) BY F) ay salve i 3 X Fh 18] 4a 


11.1.4.14 附 : sentinel 事 件 含义 





+reset-master «instance details» -- 当 master 被 重 置 时 . 

+slave «instance details» -- 当 检 测 到 一 个 slave 并 添加 进 Sslave 列 表 时 ， 
+failover-state-reconf-slaves «instance details» -- Failover 状 态 变 为 reconf-slaves 状 态 时 
+failover-detected <instance details> -- 当 failover 发 生 时 

*slave-reconf-sent «instance details» -- sentinel 发 送 SLAVEOF 命 令 把 它 重 新 配置 时 
*slave-reconf-inprog «instance details» -- slave 被 重新 配置 为 另外 一 个 master 的 Slave， 但 数据 复 


制 还 未 发 生 时 。 
+slave-reconf-done «instance details» -- slave 被 重新 配置 为 另外 一 个 master 的 Slave 并 且 数 据 复 制 
已 经 与 naster 同 步 时 。 





-dup-sentinel «instance details» -- 删除 指定 master 上 的 宛 余 sentine1 时 ( 当 一 个 sentinel 重 新 户 
动 时 ， 可 能 会 发 生 这 个 事件 ) ， 

+sentinel «instance details» -- 当 master 增 加 了 一 个 sentinel 时 。 

+sdown «instance details» -- 进入 SDOWN 状 态 时 ， 

-sdown «instance details» -- 离开 SDOWN 状 态 时 。 

+odown <instance details> -- 进入 0DOWN 状 态 时 。 

-odown «instance details» -- 离开 ODOWN 状 态 时 。 

+new-epoch <instance details> -- 当前 配置 版 本 被 更 新 时 。 

+try-failover «instance details» -- 达到 failover 条 件 ， 正 等 待 其 他 sentinel 的 选举 。 
+elected-leader <instance details> -- 被 选举 为 去 执行 failover 的 时 候 。 
+failover-state-select-slave «instance details» -- 开始 要 选择 一 个 Slave 当 选 新 master 时 。 
no-good-slave «instance details» -- 没有 合适 的 Slave 来 担当 新 master 

selected-slave «instance details» -- 找到 了 一 个 适合 的 Slave 来 担当 新 master 
failover-state-send-slaveof-noone <instance details> -- 当 把 选择 为 新 master 的 Slave 的 身份 进 
行 切 换 的 时 候 。 

failover-end-for-timeout «instance details» -- failover 由 于 超时 而 失败 时 。 

failover-end «instance details» -- failover 成 功 完成 时 。 

switch-master <master name> <oldip> <oldport> <newip> <newport> -- 当 master 的 地 址 发 生变 化 


时 。 通 常 这 是 客户 端 最 感 兴 趣 的 消息 了 。 
+tilt -- 进入 Tilt 模 式 。 
-tilt -- 退出 Tilt 模 式 。 


11.1.5 其 他 问题 


11.1.5.1 只 读 性 


主 从 复制 架构 下 ， 默 认 Slave 是 只 读 的 ， 如 果 写 入 则 会 报错 : 


127.0.0.1:6379> set foo bar 
(error) READONLY You can't write against a read only slave. 


注意 这 个 行为 是 可 以 修改 的 ， 虽 然 这 样 的 修改 没有 意义 : 


127.0.0.1:6379> CONFIG SET slave-read-only no 
OK 

127.0.0.1:6379> set foo bar 

OK 


11.1.5.1 事件 通知 


在 sentinel 中 ， 如 果 出 现 warning 以 上 级 别 的 事件 发 生 ， 是 可 以 通过 如 下 配置 进行 脚本 调用 的 
(对 于 该 脚本 redis 启 动用 户 需 要 有 执行 权限 ) 


sentinel notification-script mymaster /redis/script/notify.py 


比如 说 ， 我 们 希望 在 发 生 这 些 事件 的 时 候 进 行 邮件 通知 ， 那 么 ，notify.py 就 是 一 个 触发 邮件 调 
用 的 东 东 ， 传 入 第 一 个 参数 为 事件 类 型 ， 第 二 个 参数 为 事件 信息 : 


#!/bin/python 


from sendmail import send_mail 
import sys 


event_type = sys.argv[1] 
event_desc = sys.argv[2] 
mail_content = event_type + ":" + event_desc 


send_mail("xxxx@qq.com", 
["xxxxx@cmbc.com.cn","xxxx@gmail.com"], 
"Redis Sentinel Event Notification Mail", 
mail_content, 
cc=["xxx@gmail.com", "xxx@139.com"], 
bcc=["xxxx@qq.com" ] 


) 


有 两 个 注意 事项 : 1) 这 个 时 候 如 果 集 群发 生 了 切换 会 产生 很 多 事件 ， 此 脚本 是 在 每 一 个 事 
件 发 生 时 调用 一 次 ， 那 么 你 将 短 时 间 收 到 很 多 封 邮件 ， 加 上 很 多 的 邮件 网 关 是 不 允许 在 一 个 
短 时 间 内 发 送 太 多 的 邮件 的 ， 因 此 这 个 仅仅 是 一 个 示例 ， 并 不 具备 实际 上 的 作用 。 2) 一 般 
我 们 会 采用 多 个 sentinel， 只 需 在 一 个 sentinel 上 配置 即 可 ， 否 则 将 同一 个 消息 会 被 多 个 


sentinel 多 次 处 理 。 


附 sendmail 模 块 代码 : 


import smtplib 

import os 

from email.mime.multipart import MIMEMultipart 
from email.mime.application import MIMEApplication 
from email.mime.base import MIMEBase 

from email.mime.text import MIMEText 

from email.utils import formatdate 

from email import Encoders 

from email.message import Message 

import datetime 


def send mail(fromPerson,toPerson, subject="", text="",files=[], cc=[], bcc=[]): 
server = "smtp.qq.com" 
assert type(toPerson)==list 
assert type(files)==list 
assert type(cc)==list 
assert type(bcc)==list 


message = MIMEMultipart() 

message['From'] = fromPerson 

message['To'] = ', '.join(toPerson) 
message['Date'] = formatdate(localtime=True) 
message['Subject'] = subject 

message['Cc'] = ','.join(cc) 

message['Bcc'] = ','.join(bcc) 
message.attach(MIMEText(text) ) 


for f in files: 
part = MIMEApplication(open(f,"rb").read()) 
part.add header('Content-Disposition', 'attachment', filename-filename) 
message.attach(part) 


addresses - [] 

for x in toPerson: 
addresses.append(x) 

for x in cc: 
addresses.append(x) 

for x in bcc: 
addresses.append(x) 


smtp = smtplib.SMTP SSL(server) 
smtp.login("xxxxqq.com", "xxxx" 
smtp.sendmail(message['From'],addresses,message.as string()) 
smtp.close() 


最 佳 实践 : 采用 ELK (ElastictLogstasht+Kibana) 进行 日 志 收 集 告警 (ElastAlert 用 起 来 不 
f) ， 不 启用 这 个 事件 通知 功能 。 如 果 你 的 环境 中 没有 ELK， 或 者 启动 一 个 Tcp Server 进 程 ， 
notify 脚 本 将 事件 通过 tcp 方 式 吐 给 这 个 server， 该 Server 收 集 一 批 事件 后 再 做 诸如 发 邮件 的 处 
理 。 
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11.1.5.2 虚拟 IP 切 换 


在 sentinel 进 行 切换 时 还 会 自动 调用 一 个 脚本 〈 如 果 设 置 的 话 ) ， 做 一 些 自动 化 操作 ， 比 如 如 
RN S RM AE MPKA Master.E. (这 个 VIP 可 不 是 被 应 用 用 来 连接 redis 的 ， 用 过 的 
人 都 知道 连接 redis sentinel 并 不 依赖 于 VIP 的 ) ， 那 么 可 以 在 sentinel 配 置 文件 中 配置 : 


sentinel client-reconfig-script mymaster /redis/script/failover.sh 


在 发 生 主 从 切换 ，Master 发 生变 化 时 ， 该 脚本 会 被 sentinel 进 行 调用 ， 调 用 的 参数 如 其 配置 文 
件 所 描述 的 : 

The following arguments are passed to the script: 

«master-name» «role» «state» «from-ip» <from-port> «to-ip» <to-port> 


«state» is currently always "failover" 
«role» is either "leader" or "observer" 


The arguments from-ip, from-port, to-ip, to-port are used to communicate 
the old address of the master and the new address of the elected slave 


dk dk. dk dk dk dt dk HOH OF 


(now a master). 


因此 ， 我 们 可 以 在 failoversh 中 进行 判断 ， 如 果 该 脚本 所 运行 的 主机 IP 等 于 新 的 Master IP， 那 
么 将 VIP 加 上 ， 如 果 不 等 于 ， 则 该 机 器 为 Slave， 就 去 掉 VIP。 通 过 这 种 方式 进行 VIP 的 切换 : 


#!/bin/sh 

_DEBUG="0n" 

DEBUGFILE=/tmp/sentinel_failover.log 

VIP='192.168.2.120' 

MASTERIP=${6} 

MASK-'24' 

IFACE-'eno33554960' 

MYIP=$(ip -4 -o addr show dev ${IFACE}| grep -v secondary| awk '{split($4,a,"/");print 
a[1]}') 


DEBUG () { 
if [ "$ DEBUG" = "on" ]; then 
echo `$@` >> ${DEBUGFILE} 
fi 
H 
set -e 
DEBUG date 


DEBUG echo $0 
DEBUG echo "Master: ${MASTERIP} My IP: ${MYIP}" 
if [ ${MASTERIP} = ${MYIP} ]; then 
if [ $(ip addr show ${IFACE} | grep ${VIP} | wc -1) = © ]; then 
/sbin/ip addr add ${VIP}/${MASK} dev ${IFACE} 
DEBUG date 
DEBUG echo "/sbin/ip addr add ${VIP}/${MASK} dev ${IFACE}" 
DEBUG date 
DEBUG echo "IP Arp cleaning: /usr/sbin/arping -q -f -c 1 -A ${VIP} -I ${IFACE} 


/usr/sbin/arping -q -f -c 1 -A ${VIP} -I ${IFACE} 


DEBUG date 
DEBUG echo "IP Failover finished!" 
fi 
exit 0 
else 
if [ $(ip addr show ${IFACE} | grep ${VIP} | wc -1) != © ]; then 
/sbin/ip addr del ${VIP}/${MASK} dev ${IFACE} 
DEBUG echo "/sbin/ip addr del ${VIP}/${MASK} dev ${IFACE}" 
fi 
exit 0 
fi 
exit 1 


最 早 这 样 的 用 法 是 一 个 日 本 人 写 的 blog， 请 参 
X, : http://blog.youyo.info/blog/2014/05/24/redis-cluster/ 


11.1.5.3 持久 化 动态 修改 


其 实 相 对 于 VIP 的 切换 ， 动 态 修改 持久 化 则 是 比较 常见 的 一 个 需求 ， 一 般 在 一 主 多 从 多 
Sentinel 的 HA 环境 中 ， 为 了 性 能 常常 在 Master 上 关闭 持久 化 ， 而 在 Slave 上 开启 持久 化 ， 但 是 
如 果 发 生 切换 就 必须 有 人 工 干 预 才 能 实现 这 个 功能 。 可 以 利用 client-reconfig-script 自 动 化 该 
进程 ， 无 需 人 工 守 护 ， 我 们 就 以 RDB 的 动态 控制 为 例 : Sentinel 配 置 文件 如 下 : 


sentinel client-reconfig-script mymaster /redis/script/rdbctl.sh 


rdbctl.sh 源 代码 : 


#!/bin/bash 


_DEBUG="0n" 

DEBUGFILE-"/smsred/redis-3.0.4/10g/sentinel failover.log" 

MASTERIP=${6} 

MASTERPORT=${7} 

SLAVEIP=${4} 

SLAVEPORT=${5} 

MASK-'24' 

IFACE-'bondO' 

MYIP=$(ip -4 -o addr show dev ${IFACE}| grep -v secondary| awk '{split($4,a,"/");print 
a[1]}') 


DEBUG () { 
if [ "$ DEBUG" = "on" ]; then 
echo `$@` >> ${DEBUGFILE} 
fi 


Sete 

DEBUG date 

DEBUG echo $0 

DEBUG echo "---Begin Failover===" 
#If Master 


if [ ${MASTERIP} = ${MYIP} ]; then 
#Disable RDB 
redis-cli -h ${MYIP} -p ${MASTERPORT} -a cim2b3c4 config set save "" 
DEBUG echo ${MYIP} 
DEBUG echo "Disable Master RDB:" ${MYIP} ${MASTERPORT } 
DEBUG echo "===End Failover===" 


exit 0 


#0r Slave 
else 
echo "test5" >> $DEBUGFILE 
redis-cli -h ${MYIP} -p ${SLAVEPORT} -a cim2b3c4 config set save "900 1 300 10 
60 100000000" 
DEBUG echo ${MYIP} 
DEBUG echo "Enable Slave RDB:" ${MYIP} ${SLAVEPORT} 
DEBUG echo "===End Failover===" 
exit 0 
fi 


exit 1 
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11.1.5.4 Sentinel X 3& 44 žr 


问题 描述 
某 准 生产 系统 ， 测 试 运行 一 段 时 间 后 程序 和 命 工具 连接 sentine| 均 报错 ， 报 错 信息 为 : 


jedis.exceptions.JedisDataException: ERR max number of clients reached 


此 时 应 用 创建 redis 新 连接 由 于 sentine| 已 经 无 法 响应 而 无 法 找到 master 的 |P 与 端口 ， 因 此 无 法 
连接 redis， 并 且 此 时 如 果 发 生 redis 宕 机 亦 无 法 进行 生产 切换 。 


2. 问题 初步 排查 过 程 


首先 ， 通 过 netstat 对 sentinel 所 监听 端口 26379 进 行 连接 数 统计 ， 此 时 连接 则 报错 。 如 下 图 : 





通过 sentinel 服 务 器 端 统计 发 现 ，redis sentinel 的 连接 中 大 部 分 都 是 来 自 于 两 台 非 同 网 段 (中 
闻 有 防火 墙 ) 的 应 用 服务 器 连接 〈( 均 为 Established 状 态 ) ， 并 且 来 自 其 的 连接 也 大 约 半 个 小 
时 后 稳步 增加 一 次 ， 而 同 网 段 的 应 用 服务 器 连接 sentine| 的 连接 数 基 本 保持 一 致 。 排 除了 应 用 
的 特殊 性 (采用 的 jedis 版 本 和 封装 的 工具 类 都 是 一 样 的 ) 后 ， 初 步 判断 此 问题 与 网 络 有 关 ， 
更 详细 的 说 是 连接 数 增加 与 防火 墙 切断 连接 后 的 重 连 有 关 。 


.问题 查证 过 程 


此 问题 分 为 两 个 子 问题 : 1) 防火 墙 将 TCP 连 接 设置 为 无 效 时 sentinel 服 务 器 为 何 没 有 断 开 连 
接 ， 保 持 Established 状 态 ? 2) 为 何 连接 数 还 会 不 断 增加 ? 


对 于 问题 1) ， Dia a 动 一 个 Timer 来 进行 倒计时 ， 经 过 一 个 设 定 
的 时 间 (这 个 时 间 建 立 socket 的 程序 可 以 设置 ， 如 果 没 有 设置 则 采用 OS 的 参数 
tcp_keepalive_time， 这 个 参数 默认 为 7200s， 即 2 小 时 ) 后 这 个 连接 还 是 没有 数据 传输 ， 它 就 
会 以 一 定 间 隔 (程序 可 以 设 定 ， ey | 采用 OS 的 参数 tcp_keepalive_intvl， 默 认为 
75s) RN (程序 可 以 设 定 ， o 采用 OS 的 参数 tcp_keepalive_probes， 默 认为 
9 次 ) 次 Keep Alive 包 。TCP 连 i 就 是 通过 上 述 的 过 程 ， 在 没有 流量 时 是 通过 发 送 TCP Keep- 


Alive 数 据 包 ， 然 后 对 方 回应 TCP Keep-Alive ACKK #4 z 43 38 66 3646 E dk dE o i8 D AGE 
Sentinel 源 代码 ， 其 默认 是 不 开启 Keepalive 的 (而 jedis 默 认 是 开启 的 ) ， 并 且 黑 认 对 于 不 活 
动 的 连接 也 不 会 主动 关闭 的 (timeout 默 认为 0) ° 


对 于 防火 墙 ， 通 过 翻阅 防火 墙 技术 资料 ( 详 见 下 列 描述 ,摘自 : 《Junos Enterprise 
Switching: A Practical Guide to Junos Switches and Certification) ) ， 我 司 采用 的 Juniper 防 
火 墙 对 于 没有 流量 的 TCP 连 接 默认 是 30 分 钟 ，30 分 钟 内 没有 流量 就 会 断 掉 链 路 ， 而 不 会 发 送 
TCP Reset， 同 时 在 防火 墙 策略 上 并 没有 开 长 连接 ， 使 用 的 即 为 此 默认 设置 。 


A Word on Session Timeouts 


The flow-based nature of JUNOS software with enhanced services results in a need to 
age out inactive flows to ensure that flow state does not grow without bounds. The 
default settings result in TCP-based session timeouts of 1,800 seconds, or 30 minutes. 
Additionally, the default settings do not reset (clear) TCP sessions upon age out. This 
can result in the sensation of a "hung terminal" session, where you find the terminal 
session unresponsive—as though the router had crashed. This behavior differs from 
that of JUNOS software, which has no such session timeouts given its packet-based 
forwarding paradigm. 


There are a few ways to minimize these issues. First, you can add the tcp-rst option to 
the management traffic's ingress zone. This results in the TCP session clearing upon 
timeout, which leaves no doubt as to the connection status, thus minimizing the sen- 
sation of a hung terminal session. Another option is to configure longer session time- 
outs for local host management traffic, which is practical only when you have a specific 
policy for this management traffic; that is, you are not in router context with an accept- 


因此 在 防火 墙 每 半 个 小 时 将 连接 置 为 无 效 时 ，sentinel 同 时 又 禁止 了 Keepalive (因为 默认 设置 
Keepalive 为 0， 即 disable 发 送 Keepalive 包 ) 。 应 用 服务 器 的 jedis 虽 然 开启 了 keepalive， 但 是 
它 发 送 的 keepalive 包 由 于 防火 墙 已 经 将 此 链 路 标记 为 无 效 ， 而 无 法 发 送 到 sentinel 端 而 且 
jedis 由 于 采用 了 OS 默认 参数 ， 因 此 需要 等 待 tcp_keepalive_time (2 小 时 ) 后 才 启 动 发 送 
Keep Alive 包 进行 探 活 的 ， 在 
tep 999 time+tcp_keepalive_ ea ae =7895s=131.587 4t > jedis 
端 才 会 认定 这 个 连接 断 掉 而 清理 掉 这 个 。 简 单 的 说 就 是 jedis 会 在 很 长 一 段 时 间 后 才 会 发 
keepalive 包 ， 并 且 这 个 Sigue Mos ， 而 Sentinel 本 身 也 不 会 发 送 keepalive 包 ， 
所 以 从 sentinel 这 端 看 连接 一 直 存 在 ， 而 从 jedis 那 端 看 7895s 之 后 就 会 清理 一 次 连接 。 这 也 解 
释 了 为 什么 防火 墙 将 TCP 连 接 断 开 后 ，sentinel 端 的 连接 并 没有 释放 。 


对 于 问题 2) ， 翻 阅 jedis 源 代码 ，jedis 通 过 连接 sentinel 并 pubsub 来 监听 集群 事件 ， 以 确定 是 
否 发 生 了 切换 ， 并 且 拿 到 新 的 master 地 址 和 端口 。 如 果断 开 则 会 5 秒 后 尝试 重 连 
(JedisSentinelPool.java) 。 


if (running.get()) { 
log.log(Level.SEVERE, "Lost Mecca to Sentinel at ”+ host + ":" + port 
+ ". Sleeping 5@@@ms and retrying.", e); 
try 了 
ery 


L 
Thread. sleep (SübserdbeRetrylisieTimeNi 13s); 


} catch (InterruptedException e1) { 
log.log(Level.SEVERE, "Sleep interrupted: ", e1); 


因此 ， 这 是 导致 连接 数 不 断 上 升 的 原因 。 综 上 ， 防 火 墙 相 对 频繁 的 断 开 和 服务 器 不 断 重 连 导 
致 在 一 个 相对 较 短 的 时 间 内 连接 又 增 ， 造 成 到 达 sentinel 最 大 连接 数 ，sentinel 的 最 大 连接 数 
在 redis.h 中 定义 ， 为 10000: 


#define REDIS MAX CLIENTS 10000] 


=. - —— — Á— 0 c —À M m — 一 一 一 — - = 


问题 解决 过 程 


此 系统 由 于 访问 关系 与 网 段 规 划 间 的 安全 问题 ， 必 须 跨 越 防火 墙 ， 因 此 试图 从 配置 角度 解决 
此 问题 。 


首先 ， 联 系 网 络 相关 同事 ， 进 行 网 络 变更 ， 开 局 从 应 用 服务 器 到 sentinel 的 链 路 相对 的 长 连 
接 ， 即 无 流量 超时 而 断 开 的 时 间 设 置 为 8 小 时 。 以 此 手段 降低 断 开 频率 ， 以 便 缓 解 短 时 间 内 不 
断 重 试 连接 造成 的 sentinel 连 接 增长 。 


然后 ， 通 过 阅读 redis 源 代码 (net.c) ， 发 现 ，sentinel 也 采用 了 redis 所 有 参数 设置 (通过 
config.c 的 函数 void loadServerConfigFromString(char *config)) 。 因 此 ， 通 过 设置 redis 的 下 
列 两 个 参数 可 以 解决 这 个 问题 ， 第 一 个 参数 是 TCP Keepalive 参 数 ， 此 参数 默认 为 0， 也 就 是 
不 发 送 keepalive。 也 就 是 改变 OS 默认 的 tcp_keepalive_time 参 数 (在 Unix C 的 socket 编 程 中 
TCP_KEEPIDLE 参 数 对 应 OS 的 tcp_keepalive_time 参 数 ) 。 

val = interval; 

if (setsockopt(fd, IPPROTO TCP, TCP KEEPIDLE, &val, sizeof(val)) < 0) { 


. redisSetError(c,REDIS ERR OTHER,strerror (errno)); 
return REDIS ERR; 


~ 


该 参数 的 官方 解释 为 : 


# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 
# 


TCP keepalive. 


If non-zero, use SO_KEEPALIVE to send TCP ACKs to clients in absence 
of communication. This is useful for two reasons: 


1) Detect dead peers. 
2) Take the connection alive from the point of view of network 
equipment in the middle. 


On Linux, the specified value (in seconds) is the period used to send ACKs. 
Note that to close the connection the double of the time is needed. 


On other kernels the period depends on the kernel configuration. 


A reasonable value for this option is 60 seconds. 


我 们 设置 为 tcp-keepalive 60， 加 快 回收 连接 速度 ， 从 网 络 断 开 到 连接 清理 时 间 缩 短 为 
60+75*9=12.25 分 钟 。 


同时 ， 通 过 设置 maxclients 为 65536， 增 大 sentinel 最 大 连接 数 ， 使 得 在 上 述 12.25 分 钟 即使 有 
某 种 异常 导致 sentinel 连 接 数 增加 也 不 至 于 到 达 最 大 限制 。 此 参数 的 官方 解释 为 : 


THEHHHHHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHE LIMITS RRHHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHHIE 


dk dk dk dk dk dt dk dt OF 


Set the max number of connected clients at the same time. By default 

this limit is set to 10000 clients, however if the Redis server is not 
able to configure the process file limit to allow for the specified limit 
the max number of allowed clients is set to the current file limit 

minus 32 (as Redis reserves a few file descriptors for internal uses). 


Once the limit is reached Redis will close all the new connections sending 
an error 'max number of clients reached'. 


maxclients 10000 


xt T redis 的 timeout 参 数 ， 由 于 启用 这 个 参数 有 程序 微小 开销 (会 调用 redis.c 中 的 int 
clientsCronHandleTimeout(redisClient *c, mstime_tnow_ms)) ， 决 定 保持 默认 为 0， 而 通过 
上 述 参 数 使 用 OS 进行 连接 断 开 。 


问题 解决 结果 


通过 开发 、 网 络 和 数据 库 团队 的 协同 努力 ， 配 置 上 述 参 数 和 修改 防火 墙 策略 后 ， 手 动 增加 
sentinel 进 程 ， 起 过 原 默 认 最 大 连接 数 10000 后 sentinel 可 以 正常 访问 操作 ， 并 且 通 过 tcpdump 
进行 抓 包 ， 在 指定 时 间 内 (1 分 钟 )， 就 有 KeepAlive 包 对 每 个 sentinel TCP 连 接 进行 探 活 ， 经 
过 观察 sentinel 连 接 稳定 ， 再 未 出 现 短 时 间 内 暴涨 的 情况 。 


6. 问题 后 续 


在 redis 中 默认 不 开 尼 keepalive 就 是 为 了 尽 可 能 减 小 网 络 负载 ， 棕 干 网 络 性 能 ， 尽 可 能 达到 
redis 的 。 在 后 续 的 程序 运行 中 ， 如 果 发 现 网 络 是 瓶颈 时 (在 相当 长 的 一 段 时 间 内 不 会 )， 可 
以 加 大 sentinel 的 keepalive 参 数 ， 减 小 keepalive 数 据 包 的 传输 ， 这 个 修改 是 不 影响 redis 对 外 
服务 的 。 

参考 文档 : http://www.tldp.org/HOWTO/html_single/TCP-Keepalive-HOWTO/ 


附录 : 如 何 用 TCPDUMP 进 行 keep alive 抓 包 


tcpdump -pni bondO -v "src port 26379 and ( tcp[tcpflags] & tcp-ack !- 0 and ( (ip[2:2 
] - («(ip[0]&0xf)««2) ) - ((tcp[12]&0xf0)»»2) ) == 0 ) " 


7. 问题 再 后 续 


我 们 后 来 在 这 个 应 用 上 发 现 一 旦 网 络 有 抖动 ，sentinel 的 连接 增加 就 回 大 幅度 增加 ， 后 来 通过 
jmap 查 看 sentinelpool 的 实例 竟然 多 达 200 多 个 ， 也 就 是 说 这 个 就 是 程序 的 问题 ， 在 
sentinelpool 上 不 应 该 多 次 实例 化 ， 而 是 采用 已 有 连接 进行 重 连 。 


